如何開始寫你的第一個python腳本——簡單爬蟲入門！文末附教程

老三的休閑書屋 2019-01-17

展開全文

好多朋友在入門python的時候都是以爬蟲入手，而網(wǎng)絡(luò)爬蟲是近幾年比較流行的概念，特別是在大數(shù)據(jù)分析熱門起來以后，學(xué)習網(wǎng)絡(luò)爬蟲的人越來越多，哦對，現(xiàn)在叫數(shù)據(jù)挖掘了！

其實，一般的爬蟲具有2個功能：取數(shù)據(jù)和存數(shù)據(jù)！好像說了句廢話。。。

而從這2個功能拓展，需要的知識就很多了：請求數(shù)據(jù)、反爬處理、頁面解析、內(nèi)容匹配、繞過驗證碼、保持登錄以及數(shù)據(jù)庫等等相關(guān)知識，今天我們就來說說做一個簡單的爬蟲，一般需要的步驟！

存數(shù)據(jù)

先說存數(shù)據(jù)，是因為在初期學(xué)習的時候，接觸的少，也不需要太過于關(guān)注，隨著學(xué)習的慢慢深入，我們需要保存大批量的數(shù)據(jù)的時候，就需要去學(xué)習數(shù)據(jù)庫的相關(guān)知識了！這個我們隨后開篇單獨說明。

初期，我們抓到需要的內(nèi)容后，只需要保存到本地，無非保存到文檔、表格（excel）等等幾個方法，這里大家只需要掌握with語句就基本可以保證需求了。大概是這樣的：

1 with open（路徑以及文件名，保存模式） as f：
2 f.write（數(shù)據(jù)） #如果是文本可直接寫入，如果是其他文件，數(shù)據(jù)為二進制模式更好

當然保存到excel表格或者word文檔需要用到 xlwt庫（excel）、python-docx庫（word），這個在網(wǎng)上很多，大家可以自行去學(xué)習。

取數(shù)據(jù)

啰嗦那么多，終于到正題，怎么來抓取我們想要的數(shù)據(jù)呢？我們一步步的來！

一般所謂的取網(wǎng)頁內(nèi)容，指的是通過Python腳本實現(xiàn)訪問某個URL地址(請求數(shù)據(jù))，然后獲得其所返回的內(nèi)容（HTML源碼，Json格式的字符串等）。然后通過解析規(guī)則（頁面解析），分析出我們需要的數(shù)據(jù)并?。▋?nèi)容匹配）出來。

在python中實現(xiàn)爬蟲非常方便，有大量的庫可以滿足我們的需求，比如先用requests庫取一個url（網(wǎng)頁）的源碼

如何開始寫你的第一個python腳本——簡單爬蟲入門！文末附教程