想入門Python爬蟲？三步到位，輕松入門

quanshan 2019-01-22

展開全文

是不是很想知道那三步？

其實(shí)很簡單！

1、打開網(wǎng)頁，獲取源碼

2、獲取圖片

3、保存圖片地址與下載圖片

打開網(wǎng)頁，獲取源碼

*由于多人同時(shí)爬蟲某個(gè)網(wǎng)站時(shí)候，會(huì)造成數(shù)據(jù)冗余，網(wǎng)站崩潰，所以一些網(wǎng)站是禁止爬蟲的，會(huì)返回403拒絕訪問的錯(cuò)誤信息。----獲取不到想要的內(nèi)容/請求失敗/IP容易被封……..等

*解決辦法：偽裝——不告訴網(wǎng)站我是一個(gè)腳本，告訴它我是一個(gè)瀏覽器。（加上隨便一個(gè)瀏覽器的頭部信息，偽裝成瀏覽器），由于是簡單例子，那我們就不搞這些騷操作了。

獲取圖片

*Find函數(shù) ：只去找第一個(gè)目標(biāo)，查詢一次

*Find_all函數(shù)：找到所有的相同的目標(biāo)。

這里可能有一個(gè)解析器的問題，我們也不說了，出問題的同學(xué)百度一堆解決辦法。

保存圖片地址與下載圖片

a.使用urlib---urlretrieve下載（保存位置：如果保存在跟*.py文件同一個(gè)地方，那么只需要文件夾名稱即可，如果是其他地方，那么得寫絕對路徑。）

算了，不說那么多廢話，既然是個(gè)簡單例子，那我就直接貼代碼吧。相信也沒多少人呢看不懂。

提一句：用BeautifulSoup就可以不用正則；爬蟲用正則，Bs4, xpath三種選擇一個(gè)就好。當(dāng)然也可以混合使用，也還有其他種。

掌握上面的爬蟲三步驟，一些簡單的網(wǎng)站都可以直接搞定！

下面用一個(gè)小案例吧！

環(huán)境

需求：python3x pycharm

模塊：urllib 、urllib2、bs4、re

代碼：

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： quanshan > 《pyzhon》

舉報(bào)/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

想入門Python爬蟲？三步到位，輕松入門

環(huán)境

想入門Python爬蟲？三步到位，輕松入門