日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

<td id="gup6s"><code id="gup6s"><small id="gup6s"></small></code></td>

<strike id="gup6s"><code id="gup6s"></code></strike>

<fieldset id="gup6s"><table id="gup6s"></table></fieldset>

<menu id="gup6s"><form id="gup6s"></form></menu>

<span id="gup6s"><i id="gup6s"></i></span>

搜索

分享

QQ空間 QQ好友新浪微博微信

Python|快速掌握Python爬蟲XPath語法

小樣樣樣樣樣樣 2021-05-01

展開全文

1.什么是XPath？

xpath是一門在XML和HTML文檔中查找信息的語言，可用來在XML和HTML文檔中對元素和屬性進行遍歷，XPath 通過使用路徑表達式來選取 XML 文檔中的節(jié)點或者節(jié)點集。這些路徑表達式和在常規(guī)的電腦文件系統(tǒng)中看到的表達式非常相似。

2.XPath語法

想要學(xué)好xpath，首先要搞明白html文檔中的節(jié)點。

以上是在網(wǎng)上隨便找的一段html的文本，可以觀察得到，div的標簽下是ul標簽，而ul標簽下是li標簽，于是發(fā)現(xiàn)html的標簽是一級一級如樹狀的。Xpath正是通過這樣的方式去尋找。以生活中舉例，要確定一個人的位置，首先確定他在中國，然后確定他在某個省份，哪座城市，那個小區(qū)，最后找到他。

同級標簽可以用li[1],li[2],li[3]的方式獲取

3.lxml庫

簡單介紹一下lxml庫，接下來會用到它

lxml是一個HTML/XML的解析器，主要的功能是如何解析和提取HTML/XML 數(shù)據(jù)。

lxml和正則一樣，也是用C實現(xiàn)的，是一款高性能的PythonHTML/XML解析器，可以利用之前學(xué)習(xí)的XPath語法，來快速的定位特定元素以及節(jié)點信息。

4.實際案例

隨便爬取一個網(wǎng)站，找到找到網(wǎng)站的html文本，如下圖

要找到title和href，仔細觀察可以得到路徑分別是//div[@id="resultList"]/div[@class="el"]/p/span/a/@title

//div[@id="resultList"]/div[@class="el"]/p/span/a/@href

運行如下：

5.總結(jié)

Xpath，是在爬蟲中常見的提取數(shù)據(jù)的方式之一，相比于正則，它更加簡單一些，便于操作，xpath的難點在于準確的確定數(shù)據(jù)所在的位置。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：小樣樣樣樣樣樣 > 《待分類》

舉報/認領(lǐng)

0條評論

請遵守用戶評論公約

類似文章 更多

小樣樣樣樣樣樣

關(guān)注對話

TA的最新館藏

js事件綁定要注意的易錯點
wagtail學(xué)習(xí)
MySQL---exists檢查數(shù)據(jù)庫對象是否存在
在JS中如何比較兩個時間字符串的大小
第五章動態(tài)規(guī)劃（一）
354. 俄羅斯套娃信封問題

喜歡該文的人也喜歡更多

熱門閱讀換一換