日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

談?wù)勁老x(chóng)中定位元素的常見(jiàn)方法

 liqualife 2019-11-02

 閱讀文本大概需要 3 分鐘。

前言

我們知道,不管是爬蟲(chóng)還是自動(dòng)化測(cè)試,元素定位是最基本而且必須的一個(gè)步驟。今天我們就來(lái)講講怎么定位元素。

爬蟲(chóng)中定位元素

爬蟲(chóng)中怎么定位元素呢?常見(jiàn)的有以下幾種:

  • BeautifulSoup find 定位

  • BeautifulSoup css 定位

BeautifulSoup 是一個(gè)可以從 HTML 或 XML 文件中提取數(shù)據(jù)的 Python 庫(kù),我們需要安裝并導(dǎo)入這個(gè)庫(kù)。

from bs4 import BeautifulSoup

我們?cè)侔盐覀兲崛〉?html 數(shù)據(jù)轉(zhuǎn)換成 lxml 格式,方便 BeautifulSoup 庫(kù)直接提取信息。

import requests
html = requests.get('ttps://www.pyzhishiquan.com/crawler')
soup = BeautifulSoup(html, 'lxml')

BeautifulSoup find查找元素

接下來(lái)我們就可以用 find 方法來(lái)查找元素了,比如查看所有 a 標(biāo)簽元素。

soup.find_all('a')

BeautifulSoup css 選擇器定位元素

BeautifulSoup 中我們也可以通過(guò) css 選擇器查找定位元素,導(dǎo)包和格式轉(zhuǎn)換和上面一樣,格式如下。

soup.select('xxx')

select 方法中的字符串參數(shù)怎么獲取呢,以 Chrome 瀏覽器為例,F(xiàn)12 檢查元素中右鍵復(fù)制 seletor 就可以了。


我以前寫(xiě)的很多爬蟲(chóng)項(xiàng)目的文章都用過(guò)這種定位方法,比如 爬蟲(chóng)喜馬拉雅音頻 文章中提取音頻文件信息。


 爬取上海房租信息 文章中用 css 選擇器提取租房房源的信息。

當(dāng)然,在源代碼中無(wú)法獲取的元素的 Ajax 動(dòng)態(tài)加載的頁(yè)面,上面的定位方法就不管用了,我們可以通過(guò)分析 Network 中的請(qǐng)求,找到你需要提取的信息的規(guī)律,這個(gè)內(nèi)容本文不做講解。
還有一種方法是通過(guò) selenium 庫(kù)來(lái)解決,selenium 庫(kù)是模擬人工操作瀏覽器的,優(yōu)點(diǎn)可見(jiàn)即可爬,就是只要他能看到的都能獲取信息爬取下來(lái)。

selenium 定位

selenium 庫(kù)定位元素有方法很多,今天分享下常見(jiàn)的的定位方法。

我們首先需要導(dǎo)入 selenium 庫(kù),通過(guò) webdriver 啟動(dòng) Chrome 瀏覽器。

from selenium import webdriver
driver = webdriver.Chrome()

ID 定位

ID 一般在頁(yè)面元素中是唯一的,可以準(zhǔn)確定位頁(yè)面元素。

driver.find_element_by_id('id')

有些頁(yè)面元素的 id 是每次刷新頁(yè)面都不一樣的,比如 163 郵箱的用戶名輸入框 id,每次刷新頁(yè)面,這個(gè) id 都會(huì)變。所以,對(duì)于這種每次不一樣的 id,我們都不能用 id 來(lái)定位了。

這種隨機(jī) id 的元素我們就通過(guò)其他屬性來(lái)定位或者通過(guò)父元素來(lái)找到子元素。

classname 定位

如果 classname 是唯一的話,我們就可以通過(guò) classname 來(lái)定位元素。

driver.find_element_by_id('classname')

Xpath 定位

Xpath 路徑獲取方法第一個(gè)方法和剛才獲取 selector 信息一樣,直接 copy。


第二個(gè)方法可以借助插件,Chrome 瀏覽器上的 Xpath Helper 插件和火狐插件 firepath,以 Xpath Helper 為例,打開(kāi)后按住 Shift 鍵,移動(dòng)到想定位的元素,左邊就會(huì)顯示 Xpath 路徑。


這種方法缺點(diǎn)也很明顯,XPath 都是從根路徑開(kāi)始的,導(dǎo)致 XPath 過(guò)長(zhǎng),不利于維護(hù)。

雙屬性定位

對(duì)于一個(gè)屬性不是唯一的,我們可以用 Xpath 的雙屬性來(lái)定位元素,這個(gè)方法對(duì)于定位網(wǎng)頁(yè)和 APP 都適用。

上圖是網(wǎng)易云 APP,我想定位簽到按鈕,我可以通過(guò) class 屬性和 text 屬性同時(shí)定位元素。

driver.find_element_by_xpath('//*[@class='android.widget.TextView' and @text='簽到']')

這種方法適用于很多元素共用同一個(gè)屬性的情況,經(jīng)過(guò)我們的組合,就把元素唯一化了。

網(wǎng)頁(yè)元素同樣也可以用雙元素來(lái)定位,方法是一樣的。

以上是 pk 哥平時(shí)常用的定位元素的方法,如有其他好的定位方法,歡迎大家留言討論,共同進(jìn)步。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多