亚洲精品美女久久久-亚洲精品毛片-亚洲精品伦理-亚洲精品乱码久久久久久写真-激情啪啪网站-激情欧美在线

每周一數丨送你一份國家藥品數據(附采集教程)

2019-12-03 13:11:03 瀏覽:6183
采集網址:

https://www.drugfuture.com/cndrug/national.aspx?ApprovalNumber=&ApprovalNumberOld=&NDCNumber=&ProductName=&EnglishName=&TradeName=&Manufacturer=&Dosage=&Form=&Category=&ApprovalDateStart=1970-06-26&ApprovalDateEnd=&Restriction=fuzzy

QQ截圖20191203130546.png

采集目標:

1. 獲取網站里表格的下全部內容

 

2. 內容頁采集字段批準文號、藥品本位碼、產品名稱、生產廠家、產品地址、規格、劑型、類別、批準日期。


使用工具:
1. 火車采集器
2. Fidder抓包軟件
采集成果:

QQ截圖20191203130613.png



第一步:打開火車官網 www.76172.cn 下載最新版火車采集器并安裝

QQ截圖20191203130637.png

第二步: 確定采集器思路

需要采集的字段都在列表頁中,那么就可以列表頁標簽采集。

在桌面瀏覽器中打開可以看到,這個網址中的內容分成兩塊,我們今天采集的是上面的這塊,而且點擊下一頁的時候,網址是不變化的,那么就需要抓包獲取真實網址,請求真實網址,在真實網址的源碼中采集。

QQ截圖20191203130658.png


第三步:fiddler抓包分析
可以看出是post類型的網址采集,獲取兩個分頁的數據包,對比兩個post值,看看不同的地方,可以用&進行分塊查詢分析(一個等于號和一個&中間是一個值)

QQ截圖20191203130725.png

 

分析后



QQ截圖20191203130744.png

第四步:把分析后的數據包中對應的值填寫到采集器中

QQ截圖20191203130817.png


根據網頁上的編碼,填寫網頁編碼,post類型采集,一定要填寫網頁編碼:


QQ截圖20191203130834.png


第五步: 現在需要獲取采集的數據,前面已經提到,需要采集的數據都是在列表頁中,那么我們就可以想獲取內容頁網址一樣,在抓包的post數據包的源碼中分析需要獲取的數據

QQ截圖20191203130906.png


拼接網址那邊使用的是[標簽:批準文號],實際獲得的內容頁網址不是正確的網址(https://www.drugfuture.com/cndrug/國藥準字H20060422),現在開始測試請求,看采集器是否出現報錯情況


QQ截圖20191203130928.png

第六步: 測試請求報404的錯誤,那么可以在其他設置中的其他配置,設置忽略404報錯:

QQ截圖20191203130957.png


使得不正確的內容頁網址可以正常請求,因為沒有設置內容頁標簽,所以只是請求,不會采集內容頁標簽,數據都在列表頁標簽中采集到了。


總結:

采集過程中有的客戶會想到,既然數據都在列表頁標簽中采集了,那么就不要采集內容頁就是了或者直接使用起始頁就是內容頁進行采集。

第一,因為是post類型的網址,若是用內容頁采集的話,需要使用插件進行處理內容頁post,但是使用列表頁post就不用插件了。

第二,可以不采集內容頁,只采集網址(就是列表頁),退出編輯任務窗口,選中任務,只勾選,采網址,其他兩個不勾選,采集結束后,需要選中任務,右鍵編輯本地數據,使用sql語句更新語句,更新所有數據為已采,這樣才能進行發布數據.


每周一數數據以及采集規則領取時間為2019/11/28日發文后5個工作日內。采集規則涉及到商業版本功能,建議用戶登錄商業版本使用此規則。


數據領取資格:火車采集器/火車瀏覽器/觸控精靈商業版軟件用戶(服務年限內),如果您不是商業用戶或者已經過了服務年限,但也想參與活動的話,可以新購軟件或者升級續費,這樣就能參與活動啦!


數據領取方式:

第一步:掃碼添加火車運營微信號,火車運營助手會拉你進入活動群。

微信圖片_20191024173419.jpg


第二步:進群后添加數據咨詢客服.雅的微信號,經客服驗證為服務年限內商業用戶身份后,即可領取。


好啦,本期的“每周一數”就到這里了。如果您還有想要獲取更多的數據資源以及采集器規則的話,可以在文章下方或是公眾號后臺留言,小采會綜合大家的意見選擇下一期贈送數據的主題哦!



每周一數丨生病如何快速確定病因并及時治療?小采送你一份健康數據(附帶教程)

速看|火車采集器V9.11版本更新

旅游網站數據爬取(贈送數據+規則)

雙十一優惠券采集(附送數據+規則)

觸控精靈功能講解之微信通訊錄的備份

觸控精靈實戰教程——微信公眾號文章的采集與發布

觸控精靈實戰教程——網站發布篇



掃碼關注微信
主站蜘蛛池模板: 女同恋性吃奶舌吻完整版| 耄耋老太国产| 在线麻豆| 老阿姨在线高清看电视剧免费 | 狗年电影| 不回微信判30年图片| 徐正超| 少林问道演员表| 建设工程价款结算暂行办法| 电影喜宝| 五年级字谜| 寂静之城| 培根《谈读书》原文及翻译| 电影《大突围》免费观看国语| 《红色》电影| 哗鬼住正隔篱| 电影四渡赤水在线观看完整版| 那些年简谱| 电影《exotica》完整版观看| 袁鸿| 荒野求生无马赛原版在哪里看| 实验室火灾报警电铃响时应当| 底线电影| 上门女婿电影完整版免费| 多尔衮电视剧全集40集| 寡妇电影| 江苏诗歌网| 青山知可子最经典十部电视剧| 十一码复式22块钱中奖对照表| 爱的替身| 麦兆辉| 《剪窗花》童谣| 陈妍希三级露全乳电影| 播放凯登克罗斯演的全部影片| 朱莉安妮全集高清免费| 周星驰原名| 心太狂| 守株待兔的老农夫音乐教案| angelina全集在线观看| 母亲とが话しています免费| 清淮河|