金九銀十，你準(zhǔn)備好了嗎？沒點Python面試題干貨怎么行？（一）

千鋒Python學(xué)堂 2019-09-11

展開全文

職場人沒有不知道：金三銀四，金九銀十的說法兒吧，今天干貨奉上，100個Python面試高頻題目。

一. 遇到過得反爬蟲策略以及解決方法?

1.通過headers反爬蟲

2.基于用戶行為的發(fā)爬蟲：(同一IP短時間內(nèi)訪問的頻率)

3.動態(tài)網(wǎng)頁反爬蟲(通過ajax請求數(shù)據(jù)，或者通過JavaScript生成)

4.對部分?jǐn)?shù)據(jù)進(jìn)行加密處理的(數(shù)據(jù)是亂碼)

解決方法：

對于基本網(wǎng)頁的抓取可以自定義headers,添加headers的數(shù)據(jù)

使用多個代理ip進(jìn)行抓取或者設(shè)置抓取的頻率降低一些，

動態(tài)網(wǎng)頁的可以使用selenium + phantomjs 進(jìn)行抓取

對部分?jǐn)?shù)據(jù)進(jìn)行加密的，可以使用selenium進(jìn)行截圖，使用python自帶的pytesseract庫進(jìn)行識別，但是比較慢最直接的方法是找到加密的方法進(jìn)行逆向推理。

二. urllib 和 urllib2 的區(qū)別？

urllib 和urllib2都是接受URL請求的相關(guān)模塊，但是urllib2可以接受一個Request類的實例來設(shè)置URL請求的headers，urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字符串。
urllib提供urlencode()方法用來GET查詢字符串的產(chǎn)生，而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

三. 列舉網(wǎng)絡(luò)爬蟲所用到的網(wǎng)絡(luò)數(shù)據(jù)包，解析包？

四. 簡述一下爬蟲的步驟？

五. 遇到反爬機(jī)制怎么處理？

反爬機(jī)制:

headers方向

判斷User-Agent、判斷Referer、判斷Cookie。

將瀏覽器的headers信息全部添加進(jìn)去

注意：Accept-Encoding；gzip,deflate需要注釋掉

六. 常見的HTTP方法有哪些？

七. 說一說redis-scrapy中redis的作用?

它是將scrapy框架中Scheduler替換為redis數(shù)據(jù)庫，實現(xiàn)隊列管理共享。

優(yōu)點：

八. 遇到的反爬蟲策略以及解決方法?

通過headers反爬蟲：自定義headers，添加網(wǎng)頁中的headers數(shù)據(jù)。
基于用戶行為的反爬蟲(封IP)：可以使用多個代理IP爬取或者將爬取的頻率降低。
動態(tài)網(wǎng)頁反爬蟲(JS或者Ajax請求數(shù)據(jù))：動態(tài)網(wǎng)頁可以使用 selenium + phantomjs 抓取。
對部分?jǐn)?shù)據(jù)加密處理(數(shù)據(jù)亂碼):找到加密方法進(jìn)行逆向推理。

九. 如果讓你來防范網(wǎng)站爬蟲，你應(yīng)該怎么來提高爬取的難度？

十. scrapy分為幾個組成部分？分別有什么作用？

分為5個部分；Spiders(爬蟲類)，Scrapy Engine(引擎),Scheduler(調(diào)度器),Downloader(下載器),Item Pipeline(處理管道)。

Spiders:開發(fā)者自定義的一個類，用來解析網(wǎng)頁并抓取指定url返回的內(nèi)容。
Scrapy Engine:控制整個系統(tǒng)的數(shù)據(jù)處理流程，并進(jìn)行事務(wù)處理的觸發(fā)。
Scheduler：接收Engine發(fā)出的requests，并將這些requests放入到處理列隊中，以便之后engine需要時再提供。
Download：抓取網(wǎng)頁信息提供給engine，進(jìn)而轉(zhuǎn)發(fā)至Spiders。
Item Pipeline:負(fù)責(zé)處理Spiders類提取之后的數(shù)據(jù)。
比如清理HTML數(shù)據(jù)、驗證爬取的數(shù)據(jù)(檢查item包含某些字段)、查重(并丟棄)、將爬取結(jié)果保存到數(shù)據(jù)庫中