亚洲精品美女久久久-亚洲精品毛片-亚洲精品伦理-亚洲精品乱码久久久久久写真-激情啪啪网站-激情欧美在线

網頁抓取工具:一個簡單的文章采集示例

2017-02-16 11:51:13 瀏覽:12079

  通過采集網頁抓取工具火車采集器官網的faq為例來說明采集器采集的原理和過程。
    本例以 http://faq.locoy.com/qc-12.html 演示地址,以火車采集器V9為工具進行示例說明。

(1)新建個采集規則

選擇一個分組上右擊,選擇“新建任務”,如下圖:

圖片1.png

分析網址變量規律(2)添加起始網址
在這里我們需要采集 5頁數據。

第一頁地址:http://faq.locoy.com/qc-12.html?p=1

第二頁地址:http://faq.locoy.com/qc-12.html?p=2

第三頁地址:http://faq.locoy.com/qc-12.html?p=3

由此我們可以推算出p=后的數字就是分頁的意思,我們用[地址參數]表示:

所以設置如下:

圖片2.png

數字變化:從1開始,即第一頁;每次遞增1,即每次分頁的變化規律數字; 共5項,即一共采集5頁。地址格式:把變化的分頁數字用[地址參數]表示。

預覽:采集器會按照上面設置的生成一部分網址,讓你來判讀添加的是否正確。

然后確定即可

(3)[常規模式]獲取內容網址
常規模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內容頁A鏈接。

在這里給大家演示用 自動獲取地址鏈接 +設置區域 的 方式來獲取。

查看頁面源代碼找到文章地址所在的區域:

圖片3.png

注:更詳細的分析說明可以參考本手冊:設置如下:

操作指南 > 軟件操作 > 網址采集規則 > 獲取內容網址


圖片4.png

點擊網址采集測試,看看測試效果

圖片5.png

(3)內容采集網址http://faq.locoy.com/q-1184.html 為例講解標簽采集

注:更詳細的分析說明可以下載參考官網的用戶手冊。

操作指南 > 軟件操作 > 內容采集規則 > 標簽編輯

我們首先查看它的頁面源代碼,找到我們“標題”所在位置的代碼:

<title>導入Excle是跳出對話框~打開Excle出錯 - 火車采集器幫助中心</title>

分析得出: 開頭字符串為:<title>
結尾字符串為:</title>
數據處理——內容替換/排除:需要把- 火車采集器幫助中心 給替換為空

圖片6.png

圖片7.png

分析得出: 開頭字符串為:<div id="cmsContent">內容標簽的設置原理也是類似的,找到內容所在源碼中的位置

結尾字符串為:</div>
數據處理——HTML標簽排除:把不需要的A鏈接等過濾


圖片8.png

再設置個“來源”字段

圖片9.png

這樣一個簡單的文章采集規則就做好了,使用通用的網頁抓取工具火車采集器并按照這個示例的步驟就可以進行其它類型數據采集的擴展啦。

掃碼關注微信
主站蜘蛛池模板: 安徽卫视| 1988田螺姑娘| 刑事侦缉档案2剧情介绍| 女同视频在线观看| 教育向美而生读书心得体会| 黄色网址在线免费播放| 吉泽明步番号| 林赛斯特林| 肢体的诱惑| 范瑞君| 用力快点| 富贵不能淫翻译| 永刚| 秀场视频高清完整版| 电影《忠爱无言》| 吃大米饭是增肥还是减肥| 李彦萱| 惊弦电视剧完整版免费观看高清| 飞艇全天精准计划软件| 裸舞在线观看| 挤黑头视频 鼻子| 6套电影频道节目表| 被囚禁的女孩大结局| 金马电影网| 年轻的丈夫| 张柏芝艳照无删减版| 黄色网址视频| 久纱野水萌| 北京卫视今日电视剧| 韩国电影金珠| 滑胎最凶的食物孕早期| 廖凡主演的电视剧有哪些| 潇洒的走简谱| gay movies| 温子仁电影| 卡五星怎么算账| 冬去春来电视剧| 韩国电影《姐姐》| 马会传真论坛13297соm查询官网| 冬去春来电视剧| 哥斯|