開門見山,我是個俗人,俗不可耐的那種。 幾天前開始日更,至今已有9篇或流水賬或菜雞技術(shù)篇問世,論鉆石,我仰望大佬,論評論,我仰望大佬,論點贊,我仰望大佬,論瀏覽量,我依舊仰望大佬。人都說,寫文章嘛,記錄生活就好了,何必那么在意。我也這么想,但總感覺沒人看的時候,自己會好受挫。我承認(rèn)我俗了。每天打開簡書刷新文章頁面的時間占我玩手機的百分之80以上。文章少的時候,我還能靠我超(普)強(通)的記憶力,記住每篇文章的閱讀數(shù),并與上次記憶時作比較,嘴角露出一絲猥瑣的笑。如今不行了,文章越來越多,人也越來越俗。那么,咱就來想辦法解決解決。 昨天剛開始學(xué)爬蟲,爬了最好大學(xué)網(wǎng),實在有趣至極。心里實在癢得不行,我們今天就來爬簡書。并且,我們將爬出來的數(shù)據(jù)進行可視化,輸出至圖片,曲線總是比圖片好看不是嘛。說干就干,它來了。 先來看看我們的主頁: ![]() 我的主頁 接下來查看網(wǎng)站源碼: ![]() 網(wǎng)站源碼 可以十分清晰的看到,我們需要的瀏覽量,還有標(biāo)題都被 <a class='title' target='_blank' href='/p/96fc3adaf818'>北方人的面食生活</a> 類似的標(biāo)簽包裹,那就好辦多了。 下面直接上代碼: 代碼部分1:導(dǎo)入需要的庫,此處并未使用高級爬蟲框架,依然采用的是requests,使用了正則表達式re來匹配我們要查找的字段,使用了time來實現(xiàn)每過20分鐘查詢一次功能的實現(xiàn),以及每次查詢時間的記錄等等,最最生澀的庫matplotlib圖表庫,來實現(xiàn)數(shù)據(jù)的可視化 代碼部分2:此為低級爬蟲獲取網(wǎng)站源碼的框架。 代碼部分3: 構(gòu)造正則表達式,查詢我們需要的瀏覽量和標(biāo)題 代碼部分4: 輸出到文件,為了達到與上次瀏覽量的對比,我們將每次的記錄追加至csv文件中 可以看到csv文件如下圖: ![]() csv文件 代碼部分5: 讀取并處理數(shù)據(jù),將所有數(shù)據(jù)從文件中讀出,并進行格式處理。 格式如:{“北方人的面食生活”:[[163,164,165],[16:47,16:48,16:48]]}以字典形式進行保存,鍵為標(biāo)題,值的第一字段為瀏覽量列表,第二字段為記錄時間列表 代碼部分6:數(shù)據(jù)可視化。 代碼部分7:定義主函數(shù),并進行定時處理。 結(jié)果令人舒適,輕松加愉快:![]() textdata.png 事后煙: ![]() 命令行生成exe ![]() |
|