日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

如何開始寫你的第一個python腳本——簡單爬蟲入門!文末附教程

 老三的休閑書屋 2019-01-17

好多朋友在入門python的時候都是以爬蟲入手,而網(wǎng)絡(luò)爬蟲是近幾年比較流行的概念,特別是在大數(shù)據(jù)分析熱門起來以后,學(xué)習網(wǎng)絡(luò)爬蟲的人越來越多,哦對,現(xiàn)在叫數(shù)據(jù)挖掘了!


其實,一般的爬蟲具有2個功能:取數(shù)據(jù)和存數(shù)據(jù)!好像說了句廢話。。。

而從這2個功能拓展,需要的知識就很多了:請求數(shù)據(jù)、反爬處理、頁面解析、內(nèi)容匹配、繞過驗證碼、保持登錄以及數(shù)據(jù)庫等等相關(guān)知識,今天我們就來說說做一個簡單的爬蟲,一般需要的步驟!

存數(shù)據(jù)

先說存數(shù)據(jù),是因為在初期學(xué)習的時候,接觸的少,也不需要太過于關(guān)注,隨著學(xué)習的慢慢深入,我們需要保存大批量的數(shù)據(jù)的時候,就需要去學(xué)習數(shù)據(jù)庫的相關(guān)知識了!這個我們隨后開篇單獨說明。

初期,我們抓到需要的內(nèi)容后,只需要保存到本地,無非保存到文檔、表格(excel)等等幾個方法,這里大家只需要掌握with語句就基本可以保證需求了。大概是這樣的:

  • 1 with open(路徑以及文件名,保存模式) as f:
  • 2 f.write(數(shù)據(jù)) #如果是文本可直接寫入,如果是其他文件,數(shù)據(jù)為二進制模式更好

當然保存到excel表格或者word文檔需要用到 xlwt庫(excel)、python-docx庫(word),這個在網(wǎng)上很多,大家可以自行去學(xué)習。

取數(shù)據(jù)

啰嗦那么多,終于到正題,怎么來抓取我們想要的數(shù)據(jù)呢?我們一步步的來!

一般所謂的取網(wǎng)頁內(nèi)容,指的是通過Python腳本實現(xiàn)訪問某個URL地址(請求數(shù)據(jù)),然后獲得其所返回的內(nèi)容(HTML源碼,Json格式的字符串等)。然后通過解析規(guī)則(頁面解析),分析出我們需要的數(shù)據(jù)并?。▋?nèi)容匹配)出來。

在python中實現(xiàn)爬蟲非常方便,有大量的庫可以滿足我們的需求,比如先用requests庫取一個url(網(wǎng)頁)的源碼

如何開始寫你的第一個python腳本——簡單爬蟲入門!文末附教程

這幾行代碼就可以獲得網(wǎng)頁的源代碼,但是有時候這里面會有亂碼,為什么呢?

因為中文網(wǎng)站中包含中文,而終端不支持gbk編碼,所以我們在打印時需要把中文從gbk格式轉(zhuǎn)為終端支持的編碼,一般為utf-8編碼。

所以我們在打印response之前,需要對它進行編碼的指定(我們可以直接指定代碼顯示的編碼格式為網(wǎng)頁本身的編碼格式,比如utf-8,網(wǎng)頁編碼格式一般都在源代碼中的標簽下的charset屬性中指定)。加上一行即可

  • 1 response.encode = 'utf-8' #指定編碼格式

至此,我們已經(jīng)獲取了網(wǎng)頁的源代碼,接下來就是在亂七八糟的源代碼中找到我們需要的內(nèi)容,這里就需要用到各種匹配方式了,常用的幾種方式有:正則表達式(re庫),bs4(Beautifulsoup4庫),xpath(lxml庫)!

建議大家從正則開始學(xué)習,最后一定要看看xpath,這個在爬蟲框架scrapy中用的很多!

通過各種匹配方式找到我們的內(nèi)容后(注意:一般匹配出來的是列表),就到了上面所說的存數(shù)據(jù)的階段了,這就完成了一個簡單的爬蟲!

當然了,在我們具體寫代碼的時候,會發(fā)現(xiàn)很多上面沒有說到的內(nèi)容,比如

獲取源代碼的時候遇到反爬,根本獲取不到數(shù)據(jù)

有的網(wǎng)站需要登錄后才可以拿到內(nèi)容

遇到驗證碼

獲取到內(nèi)容后寫入文件出錯

怎樣來設(shè)計循環(huán),獲取大批量的內(nèi)容甚至整站爬蟲

總之,學(xué)習本身是一個漫長的過程,我們需要不斷的練習來增強我們的學(xué)習興趣,以及學(xué)到更扎實的知識!大家加油!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多