推薦一個(gè)網(wǎng)頁抓取小工具Web Scraper

timtxu 2019-08-29

展開全文

想分享的這款工具是個(gè)Chrome下的插件，叫：Web Scraper，是一款可以從網(wǎng)頁中提取數(shù)據(jù)的Chrome網(wǎng)頁數(shù)據(jù)提取插件。在某種意義上，你也可以把它當(dāng)做一個(gè)爬蟲工具。

也是因?yàn)樽罱谑崂?6氪文章一些標(biāo)簽，打算看下別家和創(chuàng)投相關(guān)的網(wǎng)站有什么標(biāo)準(zhǔn)可以參考，于是發(fā)現(xiàn)一家名叫：“烯牛數(shù)據(jù)”的網(wǎng)站，其提供的一套“行業(yè)體系”標(biāo)簽很有參考價(jià)值，就說想把頁面上的數(shù)據(jù)抓下來，整合到我們自己的標(biāo)簽庫中，如下圖紅字部分：

如果是規(guī)則展示的數(shù)據(jù)，還能用鼠標(biāo)選擇后復(fù)制粘貼，但這種嵌入頁面中的，還是要想些辦法。這時(shí)想起之前安裝過Web Scraper，就用下試試，還挺好用的，一下子提高了收集效率。也給大家安利下~

Web Scraper這個(gè)Chrome插件，我是一年前在三節(jié)課的公開課上看到的，號稱不用懂編程也能實(shí)現(xiàn)爬蟲抓取的黑科技，不過貌似三節(jié)課官網(wǎng)上找不到了，大家可以百度：“三節(jié)課爬蟲”，還能搜到，名字叫“人人都能學(xué)會的數(shù)據(jù)爬蟲課”，但好像還要交100塊錢。我是覺得這東西看看網(wǎng)上的文章也能學(xué)會，比如我這篇~

簡單來說，Web Scraper是個(gè)基于Chrome的網(wǎng)頁元素解析器，可以通過可視化點(diǎn)選操作，實(shí)現(xiàn)某個(gè)定制區(qū)域的數(shù)據(jù)/元素提取。同時(shí)它也提供定時(shí)自動提取功能，活用這個(gè)功能就可以當(dāng)做一套簡單的爬蟲工具來用了。

這里再順便解釋下網(wǎng)頁提取器抓取和真正代碼編寫爬蟲的區(qū)別，用網(wǎng)頁提取器自動提取頁面數(shù)據(jù)的過程，有點(diǎn)類似模擬人工點(diǎn)擊的機(jī)器人，它是先讓你定義好頁面上要抓哪個(gè)元素，以及要抓哪些頁面，然后讓機(jī)器去替人來操作；而如果你用Python寫爬蟲，更多是利用網(wǎng)頁請求指令先把整個(gè)網(wǎng)頁下載下來，再用代碼去解析HTML頁面元素，提取其中你想要的內(nèi)容，再不斷循環(huán)。相比而言，用代碼會更靈活，但解析成本也會更高，如果是簡單的頁面內(nèi)容提取，我也是建議用Web Scraper就夠了。

關(guān)于Web Scraper的具體安裝過程，以及完整功能的使用方法，我不會在今天的文章里展開說。第一是我只使用了我需要的部分，第二也是因?yàn)槭忻嫔现vWeb Scraper的教程很豐富，大家完全可以自行查找。

這里只以一個(gè)實(shí)操過程，給大家簡單介紹下我是怎么用的。

第一步創(chuàng)建Sitemap

打開Chrome瀏覽器，按F12調(diào)出開發(fā)者工具，Web Scraper在最后一個(gè)頁簽，點(diǎn)擊后，再選擇“Create Sitemap”菜單，點(diǎn)擊“Create Sitemap”選項(xiàng)。

首先輸入你想抓取的網(wǎng)站URL，以及你自定義的這條抓取任務(wù)的名字，比如我取的name是：xiniulevel，URL是：http://www./industry/level

第二步創(chuàng)建抓取節(jié)點(diǎn)

我想抓取的是一級標(biāo)簽和二級標(biāo)簽，所以先點(diǎn)進(jìn)去剛才創(chuàng)建的Sitemap，再點(diǎn)擊“Add new selector”，進(jìn)入抓取節(jié)點(diǎn)選擇器配置頁，在頁面上點(diǎn)擊“Select”按鈕，這時(shí)你會看到出現(xiàn)了一個(gè)浮層

這時(shí)當(dāng)你鼠標(biāo)移入網(wǎng)頁時(shí)，會自動把某個(gè)你鼠標(biāo)懸停的位置綠色高亮。這時(shí)你可以先單擊一個(gè)你想選擇的區(qū)塊，會發(fā)現(xiàn)區(qū)塊變成了紅色，想把同一層級的區(qū)塊全選中，則可以繼續(xù)點(diǎn)擊相鄰的下一個(gè)區(qū)塊，這時(shí)工具會默認(rèn)選中所有同級的區(qū)塊，如下圖：

我們會發(fā)現(xiàn)下方懸浮窗的文本輸入框自動填充了區(qū)塊的XPATH路徑，接著點(diǎn)擊“Done selecting！”結(jié)束選擇，懸浮框消失，選中的XPATH自動填充到下方Selector一行。另外務(wù)必選中“Multiple”，以聲明你要選多個(gè)區(qū)塊。最后點(diǎn)擊Save selector按鈕結(jié)束。

第三步獲取元素值

完成Selector的創(chuàng)建后，回到上一頁，你會發(fā)現(xiàn)多了一行Selector表格，接下來就可以直接點(diǎn)擊Action中的Data preview，查看所有想獲取的元素值。

上圖所示部分，是我已經(jīng)添加了一級標(biāo)簽和二級標(biāo)簽兩個(gè)Selector的情況，點(diǎn)擊Data preview的彈窗內(nèi)容其實(shí)就是我想要的，直接復(fù)制到EXCEL就行了，也不用什么太復(fù)雜的自動化爬取處理。

以上就是對Web Scraper使用過程的簡單介紹。當(dāng)然我的用法還不是完全高效，因?yàn)槊看蜗氆@取二級標(biāo)簽時(shí)還要先手動切換一級標(biāo)簽，再執(zhí)行抓取指令，應(yīng)該還有更好的做法，不過對我而言已經(jīng)足夠了。這篇文章主要是想和你普及下這款工具，不算教程，更多功能還是要根據(jù)你的需求自行摸索~

怎么樣，是否有幫到你？

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： timtxu > 《時(shí)尚科技》

舉報(bào)/認(rèn)領(lǐng)