是不是很想知道那三步? 其實(shí)很簡單! 1、打開網(wǎng)頁,獲取源碼 2、獲取圖片 3、保存圖片地址與下載圖片 打開網(wǎng)頁,獲取源碼 *由于多人同時(shí)爬蟲某個(gè)網(wǎng)站時(shí)候,會(huì)造成數(shù)據(jù)冗余,網(wǎng)站崩潰,所以一些網(wǎng)站是禁止爬蟲的,會(huì)返回403拒絕訪問的錯(cuò)誤信息。----獲取不到想要的內(nèi)容/請求失敗/IP容易被封……..等 *解決辦法:偽裝——不告訴網(wǎng)站我是一個(gè)腳本,告訴它我是一個(gè)瀏覽器。(加上隨便一個(gè)瀏覽器的頭部信息,偽裝成瀏覽器),由于是簡單例子,那我們就不搞這些騷操作了。 獲取圖片 *Find函數(shù) :只去找第一個(gè)目標(biāo),查詢一次 *Find_all函數(shù): 找到所有的相同的目標(biāo)。 這里可能有一個(gè)解析器的問題,我們也不說了,出問題的同學(xué)百度一堆解決辦法。 保存圖片地址與下載圖片 a.使用urlib---urlretrieve下載(保存位置:如果保存在跟*.py文件同一個(gè)地方,那么只需要文件夾名稱即可,如果是其他地方,那么得寫絕對路徑。) 算了,不說那么多廢話,既然是個(gè)簡單例子,那我就直接貼代碼吧。相信也沒多少人呢看不懂。 提一句:用BeautifulSoup就可以不用正則;爬蟲用正則,Bs4, xpath三種 選擇一個(gè)就好。當(dāng)然也可以混合使用,也還有其他種。 掌握上面的爬蟲三步驟,一些簡單的網(wǎng)站都可以直接搞定!
下面用一個(gè)小案例吧! 環(huán)境需求:python3x pycharm 模塊:urllib 、urllib2、bs4、re 代碼: |
|