使用selenium+chromedriver+xpath爬取動態載入資訊

2022-02-10 13:00:45

使用selenium實現動態渲染頁面的爬取，selenium是瀏覽器自動化測試框架，是一個用於Web應用程式測試的工具，可以直接執行在瀏覽器當中，並可以驅動瀏覽器執行指定的動作，如點選、下拉、填充資料、刪除cookie等操作，還可以獲取瀏覽器當前頁面的原始碼，就像使用者在瀏覽器中操作一樣。該工具所支援的瀏覽器有IE瀏覽器、Mozilla Firefox以及Google Chrome等。

安裝selenium模組

首先開啟Anaconda Prompt(Anaconda)命令列視窗，然後輸入“pip install selenium“命令（如果沒有安裝Anaconda, 可以在cmd命令列視窗中執行安裝模組的命令），接著按下（回車）鍵，如下圖：

說明

selenium有很多語言的版本，比如：Java、Ruby、Python等。

下載瀏覽器驅動

selenium模組安裝完成以後還需要選擇一個瀏覽器，然後下載對應的瀏覽器驅動，此時才可以通過selenium模組來控制瀏覽器的操作。這裡選擇Chrome瀏覽器Version 98.0.4758.80 (Official Build) (x86_64),然後在（http://chromedriver.storage.googleapis.com/index.html?path=98.0.4758.80/)谷歌瀏覽器驅動中下載瀏覽器驅動。如下圖：

說明

在下載谷歌瀏覽器驅動時，根據自己的電腦系統下載對應的瀏覽器驅動。

selenium模組的使用

谷歌瀏覽器驅動下載完成後，將名稱為chromedriver.exe檔案拖放到/usr/bin 目錄下（python.exe檔案的同級路徑）。然後需要通過Python程式碼進行谷歌瀏覽器驅動的載入，這樣才可以啟動瀏覽器驅動並控制瀏覽器了。

針對不同瀏覽器有不同的driver。以下列出不同瀏覽器及其對應的driver，如下表：

Browers	Driver	Link
Chrome	Chromedriver(.exe)	http://chromedriver.storage.googleapis.com/index.html
Internet Explorer	IEDriverServer.exe	http://selenium-release.storage.googleapis.com/index.html
Edge	MicrosoftWebDriver.msi	http://go.microsoft.com/fwlink/?LinkId=619687
Firefox	geckodriver(.exe)	https://github.com/mozilla/geckodriver/releases/
PhantomJS	phantomjs(.exe)	http://phantomjs.org/
Opera	operadriver(.exe)	https://github.com/operasoftware/operachromiumdriver/releases
Safari	SafariDriver.safariextz	http://selenium-release.storage.googleapis.com/index.html

獲取京東商品資訊，範例程式碼如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 建立時間   ：2/7/22 6:43 PM
# 檔案      ：獲取京東商品資訊.py
# IDE      ：PyCharm

from selenium import webdriver  # 匯入瀏覽器驅動模組
from selenium.webdriver.support.wait import WebDriverWait  # 匯入等待類
from selenium.webdriver.support import expected_conditions as EC  # 等待條件
from selenium.webdriver.common.by import By                       # 節點定位

#from selenium.webdriver.chrome.service import Service

try:
    # 建立谷歌瀏覽器驅動引數物件
    chrome_options = webdriver.ChromeOptions()
    # 不載入圖片
    prefs = {"profile.managed_default_content_settings.images": 2}
    chrome_options.add_experimental_option("prefs", prefs)
    # 使用headless無介面瀏覽器模式
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    # 載入谷歌瀏覽器驅動
		driver = webdriver.Chrome(options = chrome_options, executable_path='chromedriver')
    # 請求地址
    driver.get('https://item.jd.com/12353915.html')
    wait = WebDriverWait(driver,10)    # 等待10秒
    # 等待頁面載入class名稱為m-item-inner的節點，該節點中包含商品資訊
    wait.until(EC.presence_of_element_located((By.CLASS_NAME,"w")))

    # 獲取name節點中所有div節點
    name_div1 = driver.find_element(By.XPATH,'//div[@class="sku-name"]')
    name_div2 = driver.find_element(By.XPATH, '//div[@class="news"]/div[@class="item hide"]')
    name_div3 = driver.find_element(By.XPATH, '//div[@class="p-author"]')
    summary_price = driver.find_element(By.XPATH, '//div[@class="summary-price J-summary-price"]')
    print('提取的商品標題如下：')
    print(name_div1.text)         # 列印商品標題
    print('提取的商品宣傳語如下：')
    print(name_div2.text)         # 列印宣傳語
    print('提取的編著資訊如下：')
    print(name_div3.text)         # 列印編著資訊
    print('提取的價格資訊如下：')
    print(summary_price.text.strip('降價通知'))       # 列印價格資訊
    driver.quit()  # 退出瀏覽器驅動
except Exception as e:
    print('顯示異常資訊！', e)

程式執行結果如下：

提取的商品標題如下：
零基礎學Python（Python3.9全綵版）（程式設計入門專案實踐同步視訊）
提取的商品宣傳語如下：
彩色程式碼更易學。Python程式設計從入門到實踐書籍，網路爬蟲、遊戲開發、資料分析等深度學習。贈全程視訊+原始碼+課後題+實物掛圖+學習應用地圖+電子書+圖書答疑
提取的編著資訊如下：
明日科技著
提取的價格資訊如下：
京東價
￥ 72.00 [9.03折] [定價￥79.80]

selenium 模組的常用方法

selenium 模組支援多種獲取網頁節點的方法，其中比較常用的方法如下表：

selenium 模組獲取網頁節點的常用方法及描述

常用方法	描述
driver.find_element_by_id()	根據id獲取節點，引數為字元型別id對應的值
driver.find_element_by_name()	根據name獲取節點，引數為字元型別name對應的值
driver.find_element_by_xpath()	根據XPATH獲取節點，引數為字元型別XPATH對應的值
driver.find_element_by_link_text()	根據連結文字獲取節點，引數為字元型別連結文字
driver.find_element_by_tag_name()	根據節點名稱獲取節點，引數為字元型別節點文字
driver.find_element_by_class_name()	根據class獲取節點，引數為字元型別class對應的值
driver.find_element_by_css_selector()	根據CSS選擇器獲取節點，引數為字元型別的CSS選擇器語法

說明

上表所有獲取節點的方法均為獲取單個節點的方法，如需要獲取符合條件的多個節點時，可以在對應方法中element後面新增s即可。

除了以上常用的獲取節點的方法外，還可以使用driver.find_element()方法獲取單個節點，使用driver.find_elements()方法獲取多個節點。只是在呼叫這兩種方法時，需要為其指定by與value引數。其中by參數列示獲取節點的方式，而value為獲取方式對應的值（可以理解為條件）。範例程式碼如下：

		# 獲取商品資訊節點中的所有div節點
  	name_div = driver.find_element(By.XPATH,'//div[@class="itemInfo-wrap"]').find_elements(By.TAG_NAME, 'div')

    # 提取並輸出單個div節點的內容
    print('提取的商品標題如下：')
    print(name_div[0].text)         # 列印商品標題
    print('提取的商品宣傳語如下：')		 # 列印商品宣傳語
    print(name_div[1].text)

程式執行結果如下：

提取的商品標題如下：
零基礎學Python（Python3.9全綵版）（程式設計入門專案實踐同步視訊）
提取的商品宣傳語如下：
彩色程式碼更易學。Python程式設計從入門到實踐書籍，網路爬蟲、遊戲開發、資料分析等深度學習。贈全程視訊+原始碼+課後題+實物掛圖+學習應用地圖+電子書+圖書答疑
明日科技著

說明

以上程式碼中首先使用find_element()方法獲取class值為“itemInfo-warp“的整個節點，然後在該節點中通過find_elements()方法獲取節點名稱div的所有節點，最後通過name_div[0].text,name_div[1].text獲取所有div中第一個第二個div內的文字資訊。

下面是By的其他屬性及用法

By屬性	用法
By.ID	表示根據ID值獲取對應的單個或多個節點
By.LINK_TEXT	表示根據連結文字獲取對應的單個或多個節點
By.PARTIAL_LINK_TEXT	表示根據部分連結文字獲取對應的單個或多個節點
By.NAME	根據name值獲取對應的單個或多個節點
By.TAG_NAME	根據節點名稱獲取單個或多個節點
By.CLASS_NAME	根據class值獲取單個或多個節點
By.CSS_SELECTOR	根據CSS選擇器獲取單個或多個節點，對應的value為字串CSS的位置
By.XPATH	根據By.XPATH獲取單個或多個節點，對應的value字串節點位置

在使用selenium模組獲取某個節點中的某個屬性所對應的值時，可以使用get_attribute()方法來實現，範例程式碼如下：

# 根據XPath定位獲取指定節點中的href地址
href = driver.find_element(By.XPATH, '//div[@id="p-author"]/a').get_attribute('href')
print('指定節點中的地址資訊如下：')

程式執行結果如下：

指定節點中的地址資訊如下：
https://book.jd.com/writer/%E6%98%8E%E6%97%A5%E7%A7%91%E6%8A%80_1.html

總結

本案例中需要注意的是載入瀏覽器驅動，一定要指定chromedriver的路徑。語法如下：

 # 載入谷歌瀏覽器驅動
driver = webdriver.Chrome(options = chrome_options, executable_path='chromedriver')  # 本例驅動與爬蟲程式在同一路																																											徑

關閉瀏覽器頁面

driver.close()：關閉當前頁面
driver.quit()：退出整個瀏覽器

到此這篇關於使用selenium+chromedriver+xpath爬取動態載入資訊的文章就介紹到這了,更多相關selenium chromedriver xpath爬取內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！

使用selenium+chromedriver+xpath爬取動態載入資訊

目錄

安裝selenium模組

說 明

selenium模組的使用

selenium 模組的常用方法

總 結

熱門文章

說明

總結