• 產品介紹
  • 神通T-Bees 網絡信息采集系統,共有五個功能模塊,分別是流程定義管理、流程實例管理、站點管理、分類管理、全局設置。系統采用兩條流程為主線串聯系統功能,一個是“網頁內容采集流程”,該流程的主要目的是完成從互聯網上采集用戶指定的站點的所有網頁的內容,一個是“網頁內容模板解析流程”,該流程的主要目的是對“網頁內容采集流程”執行完畢之后,對采集的到網頁文件,按照業務需求定制內容解析模板,進行內容解析,完成“非結構化”到“結構化”的轉換。

    網頁爬?。?/font>對爬取的流程進行設計,通過新建流程、查看流程、保存流程、刪除流程、執行流程、調度流程、監控流程、終止流程以及結果導出等操作,實現對網頁內容采集流程和網頁內容模板解析流程的整個生命周期的管理。在網頁內容模板解析中,通過定制內容解析模板,對爬取到的網頁內容進行解析,實現將非結構化網頁轉換成結構化數據,從而提取網頁中的表格數據。并基于聚類技術,實現定義最少的解析模板,解析最多的網頁內容。

    爬取結果加工:對爬取到的網頁進行自動的加工和處理,基于機器學習和自然語言處理技術,將Web格式的網頁轉換為純文本文件,對重復采集的網頁進行去重,對同源網頁進行版本對照,對網頁的內容進行的自動分類和自動聚類,為將加工后的網頁生成索引以便檢索。

  • 關鍵特征
  • 流程定制可視化:可以定制“網頁爬取流程”和“網頁內容解析和導出”等多種類型的流程。流程的每個節點提供細粒度的控制參數,可供高級用戶進行性能調優,對普通用戶,接受默認參數即可開始爬取。其中對“網頁內容爬取流程”,可以指定一個或者多個起始URL進行爬取,起始站點的數量不受限制,可以任意增加。流程既可以單機執行,也能分布式執行。

    流程監控可視化:流程在執行過程中,可以以圖形化的方式監控流程的執行,查看當前正在執行的節點,已經執行的節點可以查看節點的輸入輸出文件的內容,可以顯示流程執行過程中的日志信息,方便隨時了解系統運行的內部狀態。

  • 解決方案
京ICP備09058266號-5 北京神舟航天軟件技術有限公司版權所有 網站管理郵箱:market@bjsasc.com
日本av免费一区二区三区播放_高潮胡言乱语对白刺激国产_丁香五月网久久综合