|
|
全方位的采集功能
面向對象采集,采集對象的內容可以是分散在多個(gè)頁(yè)面(模板頁(yè)面的深度嵌套訪(fǎng)問(wèn))
熊貓采集是面向對象的,一個(gè)采集對象可以擁有許多需要采集的子項屬性?xún)热。這些子項屬性的內容允許分散在不同的頁(yè)面內,這些頁(yè)面可以是需要通過(guò)若干次鏈接才能到達的頁(yè)面。
此處所謂“對象”,可以理解為“(需要采集的數據的)數據集合 ”的意思。這個(gè)數據集合的內容和范圍由用戶(hù)根據實(shí)際需求自行決定,沒(méi)有特定的要求。也可以將該對象范疇囊括到“標題列表頁(yè)面”,這屬于變通使用的方法,在此不多做贅述。靈活的使用面向對象的方法,不僅可以實(shí)現很多復雜的采集需求,更可以使得采集設置過(guò)程更為簡(jiǎn)單。
采集速度快
熊貓采集的采集速度是采集軟件中最快的(之一)。不使用落后低效的正則匹配技術(shù)。也不使用第三方內置瀏覽器訪(fǎng)問(wèn)的技術(shù)。使用自己研發(fā)的解析引擎,實(shí)現對網(wǎng)頁(yè)源碼的仿瀏覽器解析。分解網(wǎng)頁(yè)可視化內容元素,在此基礎上進(jìn)行機器學(xué)習、批量采集匹配。經(jīng)實(shí)際測試,是傳統的正則匹配方式采集速度的2~5倍。是基于第三方內置瀏覽器采集速度的10~20倍。
結果數據完整度高
實(shí)際采集過(guò)程中,由于目標頁(yè)面存在豐富的內容頁(yè)面板式的情況,此時(shí)就需要使用熊貓獨有的“多模板功能”,才能實(shí)現完整的采集。同時(shí),看起來(lái)頁(yè)面版面一致的情況下,也可能會(huì )存在因為頁(yè)面內部的少量差異而采集采集匹配失敗,此時(shí)就需要采集器具有智能容錯能力。智能容錯能力,是衡量一個(gè)采集器是否成熟的基本標志之一。熊貓追求的是采集結果100%的完整。包括有效頁(yè)面100%的采集,頁(yè)面中采集的內容100%的采集。只要設置恰當,不會(huì )出現采集結果遺漏的情況!挥行茇埐拍茏尳Y果如此完整。
JS解析的自動(dòng)判斷識別
現在很多網(wǎng)頁(yè)都采用了ajax網(wǎng)頁(yè)內容動(dòng)態(tài)生成技術(shù)。此時(shí)僅僅依靠網(wǎng)頁(yè)源碼,并不能獲取需要的有效內容。此時(shí)就需要對被采集的頁(yè)面執行JavaScript(JS)解析,獲取JS執行后的結果代碼。
熊貓支持對需要JS解析的頁(yè)面,執行JS解析,獲取JS解析后的實(shí)際內容。鑒于執行JS解析的速度效率很低,因此熊貓內置了智能判斷功能,自動(dòng)檢查是否需要對被采集的頁(yè)面執行JS解析,如果不需要的,盡量不使用低效的JS解析模式。
多模板自動(dòng)適應能力
實(shí)時(shí)幫助窗口
正文和回復內容同時(shí)采集的能力
分頁(yè)內容的輕松合并
支持各種類(lèi)型的分頁(yè)模式,用戶(hù)只需要做兩步就可以實(shí)現分頁(yè)內容的合并:鼠標點(diǎn)選確認分頁(yè)鏈接所在,將需要分頁(yè)合并的字段項勾選上“分頁(yè)合并”項即可。如果頁(yè)面內具有重復子項存在,則能自動(dòng)在分頁(yè)中尋找該重復子項,隱含自動(dòng)進(jìn)行分頁(yè)內容合并。
典型如上述的論壇例子,分頁(yè)頁(yè)面內的回復內容,可自動(dòng)實(shí)現歸并,此時(shí)用戶(hù)只需要鼠標點(diǎn)選確認分頁(yè)鏈接所在即可。有些場(chǎng)合下,在論壇內容頁(yè)面的分頁(yè)中也會(huì )同時(shí)出現主體(主表)內容,此時(shí)系統會(huì )自動(dòng)進(jìn)行判斷,不會(huì )將主表內容當成重復子項的子表內容進(jìn)行采集。
利用cookie方式模擬登錄網(wǎng)站
支持常見(jiàn)類(lèi)型數據庫引擎。支持FTP上傳
無(wú)人值守自動(dòng)定時(shí)運行
文字內容的“偽原創(chuàng )”修改。支持文章時(shí)間的提前
電話(huà):171 9219 7361
建議/合作: 139 1618 6547
郵箱:123jlxie@ 163.com
Copyright @ 2011 www.t6bz.cn All Rights Reserved 上海齊索信息科技有限公司 滬ICP備16048952號-4