python爬蟲再體驗，爬取文章瀏覽量。俗人必備工具

Polaris058 2020-04-20

展開全文

開門見山，我是個俗人，俗不可耐的那種。

幾天前開始日更，至今已有9篇或流水賬或菜雞技術(shù)篇問世，論鉆石，我仰望大佬，論評論，我仰望大佬，論點贊，我仰望大佬，論瀏覽量，我依舊仰望大佬。人都說，寫文章嘛，記錄生活就好了，何必那么在意。我也這么想，但總感覺沒人看的時候，自己會好受挫。我承認(rèn)我俗了。每天打開簡書刷新文章頁面的時間占我玩手機的百分之80以上。文章少的時候，我還能靠我超（普）強（通）的記憶力，記住每篇文章的閱讀數(shù)，并與上次記憶時作比較，嘴角露出一絲猥瑣的笑。如今不行了，文章越來越多，人也越來越俗。那么，咱就來想辦法解決解決。

昨天剛開始學(xué)爬蟲，爬了最好大學(xué)網(wǎng)，實在有趣至極。心里實在癢得不行，我們今天就來爬簡書。并且，我們將爬出來的數(shù)據(jù)進行可視化，輸出至圖片，曲線總是比圖片好看不是嘛。說干就干，它來了。

先來看看我們的主頁：

我的主頁

接下來查看網(wǎng)站源碼：

網(wǎng)站源碼

可以十分清晰的看到，我們需要的瀏覽量，還有標(biāo)題都被
<a class='title' target='_blank' href='/p/96fc3adaf818'>北方人的面食生活</a> 類似的標(biāo)簽包裹，那就好辦多了。

下面直接上代碼：

代碼部分1：導(dǎo)入需要的庫，此處并未使用高級爬蟲框架，依然采用的是requests，使用了正則表達式re來匹配我們要查找的字段，使用了time來實現(xiàn)每過20分鐘查詢一次功能的實現(xiàn)，以及每次查詢時間的記錄等等，最最生澀的庫matplotlib圖表庫，來實現(xiàn)數(shù)據(jù)的可視化

代碼部分2：此為低級爬蟲獲取網(wǎng)站源碼的框架。

代碼部分3：構(gòu)造正則表達式，查詢我們需要的瀏覽量和標(biāo)題

代碼部分4：輸出到文件，為了達到與上次瀏覽量的對比，我們將每次的記錄追加至csv文件中

可以看到csv文件如下圖：

csv文件

代碼部分5：讀取并處理數(shù)據(jù)，將所有數(shù)據(jù)從文件中讀出，并進行格式處理。
格式如：{“北方人的面食生活”：[[163,164,165],[16:47,16:48,16:48]]}以字典形式進行保存，鍵為標(biāo)題，值的第一字段為瀏覽量列表，第二字段為記錄時間列表

代碼部分6：數(shù)據(jù)可視化。

代碼部分7：定義主函數(shù)，并進行定時處理。

結(jié)果令人舒適，輕松加愉快：