熊貓采集軟件幫助系統目錄列表
大
中
小
幫助目錄
詞典
一、
項目設置
:
基礎設置
項目名稱(chēng)
項目位置
所屬類(lèi)別
網(wǎng)站編碼
項目備注
參與下載的線(xiàn)程數量
頁(yè)面訪(fǎng)問(wèn)間隔毫秒數
數據存入已有的數據庫表內
自動(dòng)生成當前項目的數據庫表單
直接存入本機文件內(text/Excel)
臨時(shí)緩存,并自動(dòng)發(fā)布到網(wǎng)站
模擬登錄(設置cookie)
登陸頁(yè)面url
模擬登錄的cookie值代碼
Cookie的來(lái)源
啟用定期更新功能
完全覆蓋已有數據
檢查補充新增的內容
不處理,廢棄新數據
數據庫設置
數據庫類(lèi)別:ACCESS
數據庫類(lèi)別:SQL Server(MS SQL)
數據庫類(lèi)別:MY SQL
數據庫類(lèi)別:Oracle
選擇ACCESS數據庫文件
數據庫IP
(數據庫)庫名稱(chēng)
數據庫登錄用戶(hù)名
數據庫登錄密碼
主表(父表)
選擇主表主鍵
啟用子表
指向父表主鍵的字段
子表列表
確認入選的子表集合
文件下載及FTP上傳設置
圖片類(lèi)文件的存儲目錄
flash動(dòng)畫(huà)文件的存儲目錄
其它類(lèi)文件的存儲目錄
將下載的文件同步上傳到服務(wù)器
FTP服務(wù)器IP(FTP設置)
FTP用戶(hù)名
FTP登錄密碼
FTP端口
FTP被動(dòng)模式
默認FTP根目錄
直接存儲在默認FTP根目錄下
由系統自動(dòng)生文件上傳目錄
人工指定文件上傳目錄
FTP圖片類(lèi)文件的目錄名稱(chēng)
FTPflash文件的目錄名稱(chēng)
FTP其它類(lèi)文件的目錄名稱(chēng)
標題列表頁(yè)設置
(標題)列表頁(yè)起始網(wǎng)址
指定列表頁(yè)的訪(fǎng)問(wèn)方式:get
指定列表頁(yè)的訪(fǎng)問(wèn)方式:post
直接指定翻頁(yè)的鏈接
直接指定翻頁(yè)的鏈接的列表
標題列表頁(yè)面翻頁(yè)訪(fǎng)問(wèn)時(shí)的最大頁(yè)數
更新訪(fǎng)問(wèn)時(shí)該翻頁(yè)訪(fǎng)問(wèn)的最大頁(yè)數
自定義翻頁(yè)參數的設置
自定義翻頁(yè)參數的列表
(翻頁(yè)參數的)參數名稱(chēng)
(翻頁(yè)參數的)自動(dòng)動(dòng)態(tài)取值
數值增減
初始值
目標值
更新運行時(shí)的目標值
值變化步長(cháng)
字符串長(cháng)度補缺的位數
參數值列表
恒定值(常量)
列表頁(yè)引導設置
直接指定內容頁(yè)面
普通模式
內容頁(yè)面的名稱(chēng)或關(guān)鍵字符
中介方式
網(wǎng)頁(yè)源碼中出現地址參數關(guān)鍵值的源代碼
(中介方式)內容頁(yè)面地址
內容頁(yè)面的設置
內容頁(yè)模板種類(lèi)列表
內容頁(yè)面的參考模板Url
二、項目高級設置:
綜合
使用動(dòng)態(tài)cookie
詳盡輸出日志
文件下載
限定后綴名
排除后綴名
無(wú)后綴名的文件不下載
頁(yè)面解析
依據冒號進(jìn)行分段
依據斜杠對數值進(jìn)行分段
對日期字符串的前后進(jìn)行修剪
圖片實(shí)際地址的轉換
采集匹配
中介模式下區分網(wǎng)頁(yè)代碼的大小寫(xiě)
嚴格限制數據庫父子表的邏輯關(guān)系
不進(jìn)行糾錯操作
不采集復合語(yǔ)句內的隱藏內容
自動(dòng)檢查并優(yōu)先使用最合適的模板
過(guò)濾掉單個(gè)采集對象所屬的某單一子表下的重復采集內容
代理訪(fǎng)問(wèn) (暫無(wú))
三、內容頁(yè)面模板的學(xué)習定制:
網(wǎng)頁(yè)的解析
用于學(xué)習的內容頁(yè)面的典型模板的url
當前模板頁(yè)面的網(wǎng)頁(yè)編碼
模板頁(yè)面內容的分解與指定
網(wǎng)頁(yè)元素的類(lèi)型
網(wǎng)頁(yè)元素的鏈接屬性
前綴標題字符的確認
網(wǎng)頁(yè)元素屬性:時(shí)間格式
網(wǎng)頁(yè)元素屬性:整數
網(wǎng)頁(yè)元素屬性:浮點(diǎn)數
網(wǎng)頁(yè)元素屬性:郵箱
入選采集 (
入選為采集對象,選擇數據庫表的對應字段(或者下載文件)
)
存入數據庫表
數據庫"表"列表
字段名列表
為多語(yǔ)句/或段落
下載該文件
下載當前文件
下載鏈接指向的文件
(下載文件)存儲在本地目錄
(下載文件)默認目錄
(下載文件)默認目錄列表
(下載文件)FTP上傳到服務(wù)器指定目錄
(下載文件)FTP上傳到服務(wù)器指定目錄列表
(下載文件)使用第三方軟件下載該文件
(下載文件)使用第三方下載軟件的列表
采集選項
該項必須命中
比對內容的CSS
比對標題的CSS
自動(dòng)重命名下載文件名
結果內容保留CSS屬性
不采集內含的隱藏內容
對該項進(jìn)行分頁(yè)歸并
采集選項-
對字段采集結果的修繕
當前字段的原文
修繕?lè )椒ǖ牧斜?/a>
修繕的位置:字段全部
修繕的位置:字段頭部
修繕的位置:字段尾部
修繕的方式:刪除
修繕的方式:添加
修繕的方式:修改替換
修繕的方式:近義詞替換(偽原創(chuàng ))
修繕的方式:時(shí)間提前
區分大小寫(xiě)
原內容(支持正則表達式)
新內容
分頁(yè)訪(fǎng)問(wèn)與合并 (
該鏈接為指向“當前頁(yè)的分頁(yè)”的鏈接
)
更新訪(fǎng)問(wèn)時(shí)該分頁(yè)訪(fǎng)問(wèn)的最大深度頁(yè)
下級子頁(yè)面 (
該鏈接為指向“下級子頁(yè)面”的鏈接(直接或間接鏈接)
)
該子頁(yè)面(在當前頁(yè)面內)具有多個(gè)重復并列子項
該下級頁(yè)面必須有命中
(指向具有重復子項的下級頁(yè)面)高級設定
(指向具有重復子項的下級頁(yè)面)重定范圍
子頁(yè)面的多模板列表
新增子模板頁(yè)面的url網(wǎng)址
添加中介鏈接 (
利用中介方式添加新的鏈接指向
)
包含地址參數關(guān)鍵值的代碼
內容頁(yè)面地址
四、項目的運行與管理:
新建項目前的
必要準備
明確需要采集什么內容,從哪兒采。
明確采集的結果數據需要存儲在哪兒,用什么存儲。
熟悉被采集網(wǎng)站的邏輯架構,找到
標題列表頁(yè)面
和
內容頁(yè)面
。
開(kāi)始新建采集項目
點(diǎn)擊軟件主界面菜單:“項目管理”-“新建項目”,新建一個(gè)采集項目。并依次設置
項目
基礎設置(新手指引)
(少數項目在此處需要打開(kāi)設置界面下方的“高級設置”對話(huà)框。配置高級屬性,新手略)
數據庫設置(新手指引)
文件下載(新手指引)
設置(默認情況下不用設置此項)
設置標題
列表頁(yè)頁(yè)面(新手指引)
的
翻頁(yè)的方式和方法
設置標題
列表頁(yè)面向內容頁(yè)面(新手指引)
的
過(guò)度方式和方法
設置
內容頁(yè)面(新手指引)
,配置需要采集的網(wǎng)頁(yè)內容。并在
內容頁(yè)面模板管理(新手指引)
窗口對定義的內容頁(yè)面模板進(jìn)行管理。
保存設置。完成采集項目的配置。
試運行采集項目
在軟件主界面左側項目列表中點(diǎn)選剛才新設置的項目。
勾選軟件主界面右側的“試運行”復選按鈕。
點(diǎn)擊“立即運行”項目按鈕(“試運行”復選按鈕上方),開(kāi)始試運行當前項目
查看運行結果數據,據此判斷項目的設置是否是您想要的結果。
如果需要調整該項目的采集設置,請在軟件主界面左側的項目列表框內雙擊該項目,打開(kāi)修改窗口。
再試運行無(wú)誤后,可以開(kāi)始執行采集運行。
国产精品天干天干在线观看_人人妻人人澡人人爽欧美一区_久久亚洲精品AB无码播放_欧美多人混交免费观看