Ps:經(jīng)歷兩個(gè)多月家里的麻煩事,泛舟終于又有空更新了。 起因是之前幫一個(gè)朋友做一個(gè)企業(yè)網(wǎng)站,沒有啥功能,單純的展示和發(fā)布信息。其實(shí)是很簡單的事情,隨便下載個(gè)個(gè)人博客源碼,改一下,以為就可以了,但是。。。。他要把公眾號(hào)里的歷史信息全部搬到網(wǎng)站上,如果手工一篇一篇復(fù)制,那也是及其痛苦的事情,于是泛舟只能用爬蟲了。 Ps:本文用51cto的公眾號(hào)做例子. 好消息是,要的是文章內(nèi)容,不是點(diǎn)贊數(shù)和閱讀數(shù),可以免去好大的麻煩。 那么這個(gè)任務(wù)的目的很簡單,復(fù)制公眾號(hào)上的文章,然后粘貼到網(wǎng)站里面。具體需要什么內(nèi)容呢?安裝好網(wǎng)站,然后進(jìn)入后臺(tái),添加文章那里看到: 文章標(biāo)題,文章作者,文章來源,縮略圖,文章描述,文章內(nèi)容,都是我們需要的內(nèi)容.其實(shí)很好找,除了具體文章內(nèi)容,其他基本在公眾號(hào)的歷史消息頁全部都有了. 就是用爬蟲把公眾號(hào)的所有歷史文章都爬下來。然后根據(jù)連接,再爬具體網(wǎng)頁內(nèi)容.分兩步處理,其中關(guān)鍵是如何爬取歷史信息. 需要用到抓包工具Fiddler,思路是這樣的: 打開Fiddler軟件,清除所有Sessions, 微信電腦版打開需要抓取的公眾號(hào)歷史消息頁, 向下滾動(dòng),大于10條消息,就是等它加載出二頁,轉(zhuǎn)到Fiddler查看 這個(gè)就是我們需要的地址,直接點(diǎn)開用瀏覽器查看,紅圈就是關(guān)鍵,我們要修改的參數(shù). 得到這個(gè)連接以后,就是已經(jīng)成功一半了,下一篇文章繼續(xù)具體的代碼. 感謝各位的閱讀,望勿噴! |
|