伴隨著以提倡個性化為主的“web2.0”概念的興起,UGC讓我們從下載為主的網絡時代演變為下載和上傳并重的交互時代。這意味著互聯網的信息量變得更加豐富了,所帶來的數量增長也是我們難以預估的,面對海量、豐富的“大數據”,國內外都衍生出了網頁抓取工具這一經典利器。
首先讓我們將視線投向國外,熟悉互聯網和大數據領域的朋友一定對import.io有所耳聞了,因獲得種子加A輪共計一千多萬美金的融資而引起國內人士的關注。Import.io的與眾不同在于用戶只需在想要抓取數據的網站上進行幾次簡單的點擊操作,就可根據你的操作推算出你想要抓取的數據,進而創建一個與這些數據的實時連接,接下來你只需選擇想要的導出形式,就可以獲得一份指定內容、實時更新的數據了。
聽起來確實很有魔力,也恰如其對產品的命名一樣“magic”。感興趣的朋友可以體驗一下,但是需要注意的是,import.io比較適用于一些列表類的數據,像是微博,店鋪網頁這些類型往往并不適用,因為它抓取的字段并非全部字段,而是基于一種特殊的選擇性推算,所以用戶需要根據需求去選擇使用。
那么國內最經典的網頁抓取工具,想必你們都已經想到了,當屬行業資歷最深的火車采集器。它研發于2005年,目前已經擁有四十多萬免費用戶,與Import.io不同,火車采集器更注重精確性,它需要得到用戶的明確指令也就是采集規則,之后再去執行操作,因此能夠適用的網頁類型會更多,甚至全網通用。
因為火車采集器的操作原理是web結構的源代碼提取,所以只要是網頁上能夠看到的內容,無論以何種排布形式展現都可以被快速提取出來。并且最終抓取的數據支持導入到任一目標數據庫中,或者導出為想要的格式。在網頁抓取的過程中,還可以選擇不同的線程數來控制火車采集器采集的速度快慢。總體上來說,火車采集器適用于對抓取需求很明確,對速度有要求,對完整性要求也較高的用戶。
在程序員們驚為天人的高智商開發下,對網頁信息數據的抓取已經不再讓我們感到抓狂。市面上現在還有許多其他新興的或是仿寫的網頁抓取工具,但真正值得用戶稱贊的才是最好的,因此在這里就不一一列舉了。相比國外的import.io,中國本土的網頁抓取工具火車采集器研發的更早,功能上也毫不遜色,看來國內的大數據技術發展未來值得我們拭目以待!
