編者按:碎片化的閱讀是微信公眾號的特色,如何整合這些碎片的信息,在不同的終端和設(shè)備上同步閱讀是困擾很多人的問題。今天我們的新欄目中林堯律師就將為我們詳細(xì)解析如何高效收集微信公眾號文章的方法。林律師為新欄目起的名字叫“法器”,那么來看看新欄目的第一把法器有多大的威力吧! 作者 林堯,浙江星韻律師事務(wù)所律師,軟件技術(shù)研究者,硬技術(shù)流律師。 編輯 Syouth,土肥圓純二郎,草草,江俊文 … 前方可能出現(xiàn)若干高能詞匯,請注意閃避。 微信公眾號的用處,對無效信息的有效過濾,大部分人都已感觸很深。手機(jī)端的應(yīng)用,讓大家隨時(shí)隨地可以閱讀,但也存在一個問題,即微信公眾號中的文章,只能在手機(jī)中查看,如何實(shí)現(xiàn)在電腦端的查看,一直是一個問題。 目前,比較主流的解決方案有兩個: 其一,通過微信的PC端或Mac端軟件,直接從該軟件的微信公眾號的查看復(fù)制文章,但該方案只能查看新收到的公眾號推送,不能查看之前的公眾號推送的信息。這對于信息控來說,是不能容忍的。 其二,在手機(jī)端打開微信公眾號文章,通過印象筆記等軟件,將該類文章保存到印象筆記,并同步到電腦端。這個方案,對于只有少量公眾號的用戶,是可以勉強(qiáng)使用的,但如果關(guān)注的公眾號非常多,用戶又不想錯過所有文章的話,這個方案可以被用戶累成??。 那么,有沒有新的解決方案呢?這個方案既可以讓用戶關(guān)注的公號的文章一篇不落的保存下來,又可以讓用戶在電腦端隨時(shí)查看編輯呢?答案其實(shí)是有的! 下面我將為你展示抽絲剝繭并最終找到解決方案的過程,如果中途被高能詞匯嚇傻,請直接拉到第四點(diǎn)看方案。 一、找到公眾號信息源如何抓取公號的信息?這是設(shè)計(jì)解決方案第一個面對的問題。從目前來看,獲取公號信息的途徑有手機(jī)微信端和電腦微信端,電腦微信端的缺陷已經(jīng)很明顯了,不能獲取歷史信息,而且要把電腦端的軟件里地信息提取出來,并不是件容易的事。那么就只有做一個app把手機(jī)微信端的信息給提取出來?這么做也有問題,對于未越獄的蘋果手機(jī),這基本上是不可能完成的任務(wù),對安卓手機(jī)來說,要root進(jìn)系統(tǒng)并獲取微信信息,同樣存在風(fēng)險(xiǎn)高、難度大的問題。 那么就沒有辦法了嗎? 等等!企鵝還是給我們留了一扇窗的。那就是搜狗的微信搜索功能!而且還是網(wǎng)頁端,易于提取。 二、抓取并分析信息源稍有經(jīng)驗(yàn)的攻城獅都知道,提取網(wǎng)絡(luò)中的數(shù)據(jù),相對來說都是比較容易的。只要念幾聲咒語,放幾只爬蟲出去便可。爬蟲,也叫網(wǎng)絡(luò)蜘蛛。這是因?yàn)樗男袨槟J接悬c(diǎn)像蜘蛛,你只要給它一個鏈接,它便可將該鏈接下的所有網(wǎng)頁內(nèi)容抓取,如果發(fā)現(xiàn)網(wǎng)頁中還有其他鏈接,他就會繼續(xù)深入該鏈接爬去數(shù)據(jù),無窮盡焉。這便是網(wǎng)絡(luò)爬蟲的基本原理。 當(dāng)然,我省略了其中用正則表達(dá)式分析網(wǎng)頁內(nèi)容提取文件名、正文、作者、時(shí)間等關(guān)鍵信息、通過算法分析排除重復(fù)內(nèi)容、存儲寫入數(shù)據(jù)庫、字符編碼轉(zhuǎn)換、設(shè)置延遲時(shí)間等內(nèi)容。有人光寫一只爬蟲能寫一本書,我就不展開了。 抓取并分析出有用信息后,我有兩個選擇:其一,存儲為本地文件,供我隨時(shí)調(diào)戲。其二,存入數(shù)據(jù)庫,為下一步通過網(wǎng)頁展示做準(zhǔn)備。 然后的然后,我該開始寫爬蟲了? 沒有沒有,優(yōu)秀的攻城獅在開動之前,都會去找找看,有沒有曾經(jīng)有那么一瞬,與我心有靈犀呢? 答案還是有的。 終于,我找到了一個叫wlwr的有為青年寫的一個小程序。不過,在抓取并分析出有用信息后,他并沒有存儲為本地文件,也沒有存入數(shù)據(jù)庫,他選擇了第三條路徑——生成rss。 Rss這個成名于微時(shí),風(fēng)行于信息強(qiáng)迫癥患者之間,卻終被Google深深傷害,的孩子。 三、新的思路既然前人已經(jīng)寫好代碼,下一步該怎么走?最終,我選擇了,寫代理意見??。 其實(shí),當(dāng)你擁有了一個rss時(shí),你已擁有了全世界,你需要做的,只是找一個好點(diǎn)的rss閱讀器而已。信息的收集和檢索,是rss的強(qiáng)項(xiàng)。 然后?沒有然后了,故事的結(jié)尾就是這樣。感謝你聽完我的絮叨,然后詳細(xì)的操作步驟請看圖片。 最后,感謝wlwr的杰出貢獻(xiàn),畢竟搜狗也不是吃素的,設(shè)置了反爬蟲的策略。但目前看來,wlwr的反反爬蟲策略技高一籌。衷心希望,搜狗的大拿對這個小爬蟲就視而不見吧,它對我們很重要。 四、方案實(shí)操(點(diǎn)擊圖片可以放大)
最后的最后,給信息強(qiáng)迫癥患者的一句話: “永遠(yuǎn)不要害怕錯過信息,如果這個信息真的重要,你一定會再次遇見它?!?/span> … |
|