日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

python爬蟲再體驗,爬取文章瀏覽量。俗人必備工具

 Polaris058 2020-04-20

開門見山,我是個俗人,俗不可耐的那種。

幾天前開始日更,至今已有9篇或流水賬或菜雞技術(shù)篇問世,論鉆石,我仰望大佬,論評論,我仰望大佬,論點贊,我仰望大佬,論瀏覽量,我依舊仰望大佬。人都說,寫文章嘛,記錄生活就好了,何必那么在意。我也這么想,但總感覺沒人看的時候,自己會好受挫。我承認(rèn)我俗了。每天打開簡書刷新文章頁面的時間占我玩手機的百分之80以上。文章少的時候,我還能靠我超(普)強(通)的記憶力,記住每篇文章的閱讀數(shù),并與上次記憶時作比較,嘴角露出一絲猥瑣的笑。如今不行了,文章越來越多,人也越來越俗。那么,咱就來想辦法解決解決。

昨天剛開始學(xué)爬蟲,爬了最好大學(xué)網(wǎng),實在有趣至極。心里實在癢得不行,我們今天就來爬簡書。并且,我們將爬出來的數(shù)據(jù)進行可視化,輸出至圖片,曲線總是比圖片好看不是嘛。說干就干,它來了。

先來看看我們的主頁:

我的主頁

接下來查看網(wǎng)站源碼:
網(wǎng)站源碼

可以十分清晰的看到,我們需要的瀏覽量,還有標(biāo)題都被
<a class='title' target='_blank' href='/p/96fc3adaf818'>北方人的面食生活</a> 類似的標(biāo)簽包裹,那就好辦多了。

下面直接上代碼:

代碼部分1:導(dǎo)入需要的庫,此處并未使用高級爬蟲框架,依然采用的是requests,使用了正則表達式re來匹配我們要查找的字段,使用了time來實現(xiàn)每過20分鐘查詢一次功能的實現(xiàn),以及每次查詢時間的記錄等等,最最生澀的庫matplotlib圖表庫,來實現(xiàn)數(shù)據(jù)的可視化

代碼部分2:此為低級爬蟲獲取網(wǎng)站源碼的框架。

代碼部分3: 構(gòu)造正則表達式,查詢我們需要的瀏覽量和標(biāo)題

代碼部分4: 輸出到文件,為了達到與上次瀏覽量的對比,我們將每次的記錄追加至csv文件中

可以看到csv文件如下圖:

csv文件

代碼部分5: 讀取并處理數(shù)據(jù),將所有數(shù)據(jù)從文件中讀出,并進行格式處理。
格式如:{“北方人的面食生活”:[[163,164,165],[16:47,16:48,16:48]]}以字典形式進行保存,鍵為標(biāo)題,值的第一字段為瀏覽量列表,第二字段為記錄時間列表

代碼部分6:數(shù)據(jù)可視化。

代碼部分7:定義主函數(shù),并進行定時處理。

結(jié)果令人舒適,輕松加愉快:
textdata.png

事后煙:
丑是丑了點,但是媽媽再也不用擔(dān)心我每天盯著手機記瀏覽量了。下一步準(zhǔn)備生成可執(zhí)行文件,放在服務(wù)器執(zhí)行??蓱z的瀏覽量。一起加油?。?!
更新:
使用如下命令打包成exe文件,發(fā)送到桌面快捷方式,雙擊執(zhí)行即可。


命令行生成exe

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多