通過采集網頁抓取工具火車采集器官網的faq為例來說明采集器采集的原理和過程。
本例以 http://faq.locoy.com/qc-12.html 演示地址,以火車采集器V9為工具進行示例說明。
(1)新建個采集規則
選擇一個分組上右擊,選擇“新建任務”,如下圖:
分析網址變量規律(2)添加起始網址
在這里我們需要采集 5頁數據。
第一頁地址:http://faq.locoy.com/qc-12.html?p=1
第二頁地址:http://faq.locoy.com/qc-12.html?p=2
第三頁地址:http://faq.locoy.com/qc-12.html?p=3
由此我們可以推算出p=后的數字就是分頁的意思,我們用[地址參數]表示:
所以設置如下:
數字變化:從1開始,即第一頁;每次遞增1,即每次分頁的變化規律數字; 共5項,即一共采集5頁。地址格式:把變化的分頁數字用[地址參數]表示。
預覽:采集器會按照上面設置的生成一部分網址,讓你來判讀添加的是否正確。
然后確定即可
(3)[常規模式]獲取內容網址
常規模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內容頁A鏈接。
在這里給大家演示用 自動獲取地址鏈接 +設置區域 的 方式來獲取。
查看頁面源代碼找到文章地址所在的區域:
注:更詳細的分析說明可以參考本手冊:設置如下:
操作指南 > 軟件操作 > 網址采集規則 > 獲取內容網址
點擊網址采集測試,看看測試效果
(3)內容采集網址以 http://faq.locoy.com/q-1184.html 為例講解標簽采集
注:更詳細的分析說明可以下載參考官網的用戶手冊。
操作指南 > 軟件操作 > 內容采集規則 > 標簽編輯
我們首先查看它的頁面源代碼,找到我們“標題”所在位置的代碼:
<title>導入Excle是跳出對話框~打開Excle出錯 - 火車采集器幫助中心</title>
分析得出: 開頭字符串為:<title>
結尾字符串為:</title>
數據處理——內容替換/排除:需要把- 火車采集器幫助中心 給替換為空
分析得出: 開頭字符串為:<div id="cmsContent">內容標簽的設置原理也是類似的,找到內容所在源碼中的位置
結尾字符串為:</div>
數據處理——HTML標簽排除:把不需要的A鏈接等過濾
再設置個“來源”字段
這樣一個簡單的文章采集規則就做好了,使用通用的網頁抓取工具火車采集器并按照這個示例的步驟就可以進行其它類型數據采集的擴展啦。
