亚洲精品美女久久久-亚洲精品毛片-亚洲精品伦理-亚洲精品乱码久久久久久写真-激情啪啪网站-激情欧美在线

每周一數丨小采教你如何用火車采集器爬取法律法規新聞數據(送規則+數據)

2019-10-24 17:36:44 瀏覽:7646

采集網址:

http://www.pkulaw.cn/cluster_form.aspx?Db=news&menu_item=law&EncodingName=&keyword=&range=name&

12.png

采集目標:
1. 遍歷抓取列表頁的內容頁地址
2. 內容頁采集字段:標題,內容,關鍵詞語,來源
使用工具:
1. 火車采集器
2. Fidder抓包軟件
采集成果:

13.png



那么我們接下來看如何用火車采集器來獲取法律法規數據。
第一步:打開火車官網 www.76172.cn 下載最新版火車采集器并安裝

QQ截圖20191024172516.png


第二步:打開軟件中列表頁面,使用fiddler抓包獲取數據包并分析,得到實際的數據請求(多抓取幾個分頁進行對比)
QQ截圖20191024172547.png
通過分析可以看出,分頁的加載方式是POST請求,POST表單中有控制分頁的變量,內容頁地址在源碼當中的格式清晰可見。

第三步:在采集器中新建規則,按照Fiddler抓包得到的信息編寫列表頁的獲取規則POST請求地址填寫到起始地址欄

QQ截圖20191024172621.png

填寫POST表單,將分頁控制參數用[分頁]變量替換,然后設置分頁范圍
QQ截圖20191024172643.png

第四步:分析源碼后,在網址獲取選項中設置內容頁地址的獲取規則,并測試采集列表
QQ截圖20191024172744.png
將抓包獲取的頭信息依次填寫到HTTP請求設置
QQ截圖20191024172805.png

第五步:以上全部設置好后,可測試運行列表的獲取,獲取成功后可以繼續制作內容采集規則
QQ截圖20191024172828.png

第六步:瀏覽器中打開一個內容頁,找到需要采集的字段位置,和源碼的對應關系

QQ截圖20191024172847.png

找到數據的前后位置就可以通過前后截取或者正則提取得到內容
QQ截圖20191024173205.png


第七步:由于”關鍵詞語”字段有多個值,建議使用循環獲取,以下是處理方法

設置關聯多頁并保存

QQ截圖20191024173224.png
從關聯多頁中進行循環提取
QQ截圖20191024173244.png


總結:通過Fiddler抓包分析數據請求信息,按照要求填寫相應設置,編寫內容字段的獲取規則即可。
注意:1.該網站采集存在封IP的問題,需要使用代理后才能長時間采集,
2.Cookie一段時間后也存在失效問題

每周一數數據以及采集規則領取時間為2019/10/24日發文后5個工作日內。采集規則涉及到商業版本功能,建議用戶登錄商業版本使用此規則。


數據領取資格:火車采集器/火車瀏覽器/觸控精靈商業版軟件用戶(服務年限內),如果您不是商業用戶或者已經過了服務年限,但也想參與活動的話,可以新購軟件或者升級續費,這樣就能參與活動啦!通知一下哦,雙11火車活動優惠折扣很大呢!


數據領取方式

第一步:掃碼添加火車運營微信號,火車運營助手會拉你進入活動群。

微信圖片_20191024173419.jpg


第二步:進群后添加數據咨詢客服.雅的微信號,經客服驗證為服務年限內商業用戶身份后,即可領取


好啦,本期的“每周一數”就到這里了。如果您還有想要獲取更多的數據資源以及采集器規則的話,可以在文章下方或是公眾號后臺留言,小采會綜合大家的意見選擇下一期贈送數據的主題哦!






掃碼關注微信
主站蜘蛛池模板: 金枝玉叶电视剧免费观看| 雾里看花电视剧| 张韵| 艳妇乳肉豪妇荡乳xxx| 西游记tvb| 荒山之夜| 阴阳界 电影| 电影《大突围》完整版| teen| 电视剧狂飙演员名单| 张志忠主演电视剧| 难兄难弟 电影| 手纹线| 陈芷琰演过哪些电视剧名字| 高达剧场版| 迷案1937电视剧剧情介绍| 女生被艹在线观看 | 《世说新语》二则原文及注释 | 紫依| 追捕演员表名单| 守株待兔的故事讲解视频完整版| 拿枪| 迷宫1意大利劳尔| 张国立主演电视剧全剧大全免费观看| 奇妙的植物世界阅读短文答案| 同性gay| 欧美艳星av名字大全| 台湾卫视| 少女模特 电影| 抖音下载安装| 黄电影在线观看| 日老女人逼视频| 2025最火蛋糕图片| 爱上美眉| 许多组织都有自己的价值标准和行为理念 | 所求皆所愿| 日本变态浣肠免费视频| 动物园作文| 饥饿站台豆瓣| 离歌吉他谱| 公司辞退员工的合法流程及赔偿|