注意這個(gè)網(wǎng)站的翻頁(yè)參數比較典型。所以順帶做一個(gè)說(shuō)明,這個(gè)網(wǎng)站的翻頁(yè)需要使用“方式2:參數值列表”的方式才能順利通過(guò)。因為對方網(wǎng)站的列表頁(yè)的第一頁(yè),如果按照數值增減模式,網(wǎng)址應該是http://www.ccgp.gov.cn/cggg/dfgg/gkzb/index_0.htm ,但是該網(wǎng)址無(wú)法訪(fǎng)問(wèn)通過(guò)。因此需要改用方式2:參數值列表方式來(lái)實(shí)現。注意參數值列表輸入框中,第一個(gè)逗號,的前面,是沒(méi)有內容的,意思是為空。
點(diǎn)擊“下一步設置>>”按鈕,進(jìn)入“選擇內容頁(yè)”標簽,此時(shí)可以看到系統已經(jīng)為你挑選了所有的內容頁(yè)。此時(shí)我們只需要檢查一下右邊瀏覽器中,紅框框選范圍是否對的,如果是對的,則直接忽略進(jìn)入下一步,如果不對,則手工干預一下,或者點(diǎn)擊“方式1:直接指定內容頁(yè)頁(yè)面(的鏈接)”的右邊的“高級設定>>>",打開(kāi)高級設定調整對話(huà)框,按需要調整后,再點(diǎn)擊”重定范圍>>>“即可。
點(diǎn)擊設置窗口左下的“項目高級設置”按鈕,打開(kāi)項目高級設置對話(huà)框,選擇“采集”標簽。依次勾選“顯示內容頁(yè)面的Url”,“需要采集列表頁(yè)面中鏈接所轄的內容”。如下圖所示:
圖示3:項目高級設置的選項
然后返回到剛才的“選擇內容頁(yè)”設置對話(huà)框中,可以看到在方式1的列表下面,會(huì )多出一個(gè)復選項按鈕“需要同時(shí)采集該鏈接(在本頁(yè)面內)所轄內容”,勾選該按鈕即可。如下圖:
圖示4:勾選“需要同時(shí)采集該鏈接所轄的內容”
繼續點(diǎn)擊“下一步設置>>”按鈕,進(jìn)入“內容頁(yè)面模板管理”標簽中,選擇默認的方式1:使用自定義模板。點(diǎn)擊“添加新模板”按鈕。打開(kāi)默認設置對話(huà)框。如下圖:
圖示5:添加新模板
打開(kāi)內容頁(yè)面設置對話(huà)框后,此時(shí)內容頁(yè)面設置對話(huà)框的左側上方的列表中,會(huì )羅列從列表頁(yè)中鏈接所轄內容。注意“可見(jiàn)性”列中,會(huì )標明這些信息的來(lái)源是來(lái)自于“父頁(yè)面”。依次點(diǎn)擊設置采集該項即可:
圖示6:內容頁(yè)面模板的采集設置
注意,如果只需要采集列表頁(yè)內容,則不必點(diǎn)擊“開(kāi)始分析”按鈕,但此時(shí)需要采集“(入口網(wǎng)址)”項。因為系統為每條記錄都要區分來(lái)源網(wǎng)址,如果不選項采集“(入口網(wǎng)址)”項,則該列表頁(yè)內所轄的幾十條信息的數據來(lái)源網(wǎng)址,都會(huì )標注為該列表頁(yè)的網(wǎng)址,入庫存檔的時(shí)候就會(huì )判斷為重復數據而被舍棄。
圖示7:選擇采集“(入口網(wǎng)址)”
至此設置完成。依次點(diǎn)擊確定按鈕保存設置,回到軟件主界面,點(diǎn)擊界面中“項目屬性”框右側的“立即運行項目”按鈕,或者在界面左側項目名稱(chēng)列表中,選擇該項目名稱(chēng),然后右鍵彈出的菜單中選擇“運行該項目”:
圖示8:項目的運行的截圖
電話(huà):171 9219 7361
建議/合作: 139 1618 6547
郵箱:123jlxie@ 163.com
Copyright @ 2011 www.t6bz.cn All Rights Reserved 上海齊索信息科技有限公司 滬ICP備16048952號-4