日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

如何高效收集微信公眾號文章為你所用?

 lgzlawyer 2015-05-27


編者按:碎片化的閱讀是微信公眾號的特色,如何整合這些碎片的信息,在不同的終端和設(shè)備上同步閱讀是困擾很多人的問題。今天我們的新欄目中林堯律師就將為我們詳細(xì)解析如何高效收集微信公眾號文章的方法。林律師為新欄目起的名字叫“法器”,那么來看看新欄目的第一把法器有多大的威力吧!


作者 林堯,浙江星韻律師事務(wù)所律師,軟件技術(shù)研究者,硬技術(shù)流律師。

編輯 Syouth,土肥圓純二郎,草草,江俊文


前方可能出現(xiàn)若干高能詞匯,請注意閃避。


微信公眾號的用處,對無效信息的有效過濾,大部分人都已感觸很深。手機(jī)端的應(yīng)用,讓大家隨時(shí)隨地可以閱讀,但也存在一個問題,即微信公眾號中的文章,只能在手機(jī)中查看,如何實(shí)現(xiàn)在電腦端的查看,一直是一個問題。


目前,比較主流的解決方案有兩個:


其一,通過微信的PC端或Mac端軟件,直接從該軟件的微信公眾號的查看復(fù)制文章,但該方案只能查看新收到的公眾號推送,不能查看之前的公眾號推送的信息。這對于信息控來說,是不能容忍的。


其二,在手機(jī)端打開微信公眾號文章,通過印象筆記等軟件,將該類文章保存到印象筆記,并同步到電腦端。這個方案,對于只有少量公眾號的用戶,是可以勉強(qiáng)使用的,但如果關(guān)注的公眾號非常多,用戶又不想錯過所有文章的話,這個方案可以被用戶累成??。


那么,有沒有新的解決方案呢?這個方案既可以讓用戶關(guān)注的公號的文章一篇不落的保存下來,又可以讓用戶在電腦端隨時(shí)查看編輯呢?答案其實(shí)是有的!


下面我將為你展示抽絲剝繭并最終找到解決方案的過程,如果中途被高能詞匯嚇傻,請直接拉到第四點(diǎn)看方案。


一、找到公眾號信息源

如何抓取公號的信息?這是設(shè)計(jì)解決方案第一個面對的問題。從目前來看,獲取公號信息的途徑有手機(jī)微信端和電腦微信端,電腦微信端的缺陷已經(jīng)很明顯了,不能獲取歷史信息,而且要把電腦端的軟件里地信息提取出來,并不是件容易的事。那么就只有做一個app把手機(jī)微信端的信息給提取出來?這么做也有問題,對于未越獄的蘋果手機(jī),這基本上是不可能完成的任務(wù),對安卓手機(jī)來說,要root進(jìn)系統(tǒng)并獲取微信信息,同樣存在風(fēng)險(xiǎn)高、難度大的問題。


那么就沒有辦法了嗎?


等等!企鵝還是給我們留了一扇窗的。那就是搜狗的微信搜索功能!而且還是網(wǎng)頁端,易于提取。


二、抓取并分析信息源

稍有經(jīng)驗(yàn)的攻城獅都知道,提取網(wǎng)絡(luò)中的數(shù)據(jù),相對來說都是比較容易的。只要念幾聲咒語,放幾只爬蟲出去便可。爬蟲,也叫網(wǎng)絡(luò)蜘蛛。這是因?yàn)樗男袨槟J接悬c(diǎn)像蜘蛛,你只要給它一個鏈接,它便可將該鏈接下的所有網(wǎng)頁內(nèi)容抓取,如果發(fā)現(xiàn)網(wǎng)頁中還有其他鏈接,他就會繼續(xù)深入該鏈接爬去數(shù)據(jù),無窮盡焉。這便是網(wǎng)絡(luò)爬蟲的基本原理。


當(dāng)然,我省略了其中用正則表達(dá)式分析網(wǎng)頁內(nèi)容提取文件名、正文、作者、時(shí)間等關(guān)鍵信息、通過算法分析排除重復(fù)內(nèi)容、存儲寫入數(shù)據(jù)庫、字符編碼轉(zhuǎn)換、設(shè)置延遲時(shí)間等內(nèi)容。有人光寫一只爬蟲能寫一本書,我就不展開了。


抓取并分析出有用信息后,我有兩個選擇:其一,存儲為本地文件,供我隨時(shí)調(diào)戲。其二,存入數(shù)據(jù)庫,為下一步通過網(wǎng)頁展示做準(zhǔn)備。


然后的然后,我該開始寫爬蟲了?


沒有沒有,優(yōu)秀的攻城獅在開動之前,都會去找找看,有沒有曾經(jīng)有那么一瞬,與我心有靈犀呢?


答案還是有的。


終于,我找到了一個叫wlwr的有為青年寫的一個小程序。不過,在抓取并分析出有用信息后,他并沒有存儲為本地文件,也沒有存入數(shù)據(jù)庫,他選擇了第三條路徑——生成rss。


Rss這個成名于微時(shí),風(fēng)行于信息強(qiáng)迫癥患者之間,卻終被Google深深傷害,的孩子。


三、新的思路

既然前人已經(jīng)寫好代碼,下一步該怎么走?最終,我選擇了,寫代理意見??。


其實(shí),當(dāng)你擁有了一個rss時(shí),你已擁有了全世界,你需要做的,只是找一個好點(diǎn)的rss閱讀器而已。信息的收集和檢索,是rss的強(qiáng)項(xiàng)。


然后?沒有然后了,故事的結(jié)尾就是這樣。感謝你聽完我的絮叨,然后詳細(xì)的操作步驟請看圖片。


最后,感謝wlwr的杰出貢獻(xiàn),畢竟搜狗也不是吃素的,設(shè)置了反爬蟲的策略。但目前看來,wlwr的反反爬蟲策略技高一籌。衷心希望,搜狗的大拿對這個小爬蟲就視而不見吧,它對我們很重要。


四、方案實(shí)操

(點(diǎn)擊圖片可以放大)






最終效果圖

最后的最后,給信息強(qiáng)迫癥患者的一句話:

“永遠(yuǎn)不要害怕錯過信息,如果這個信息真的重要,你一定會再次遇見它?!?/span>

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多