爬蟲-selenium的使用

2021-02-04 01:30:07

Selenium是一個Web的自動化測試工具，最初是為網站自動化測試而開發的，可以按指定的命令自動操作，但是他需要與第三方瀏覽器結合在一起才能使用。如果我們把 Selenium和第三方瀏覽器（比如Chrome）結合在一起，就可以執行一個非常強大的網路爬蟲了，這個爬蟲可以處理 JavaScrip、Cookie、headers，以及任何我們真實使用者需要做的事情。

一、安裝

sudo pip3 install selenium

二、快速入門

from selenium import webdriver # 匯入webdriver
from selenium.webdriver.common.keys import Keys #Keys`類提供鍵盤按鍵的支援，比如：RETURN, F1, ALT等
from selenium.webdriver.chrome.options import Options #匯入Chrome瀏覽器設定選項類

options = Options()
options.add_argument('--headless')#無介面瀏覽器
options.add_argument('--disable-gpu')# 禁用gpu加速，規避bug
driver = webdriver.Chrome(options=options) #建立瀏覽器物件
driver.get("https://www.baidu.com/") # get方法會開啟一個頁面
driver.implicitly_wait(10) # 通常開啟頁面後會等待一會，讓頁面載入
print (driver.title) # 列印頁面標題 "百度一下，你就知道"
driver.save_screenshot("baidu.png") # 生成當前頁面快照並儲存
elem = driver.find_element_by_id('kw') #根據id查詢元素
elem.clear() #清空搜尋方塊
elem.send_keys('中國') #搜尋中國
elem.send_keys(Keys.RETURN) #按確認鍵
print(driver.page_source) # 列印網頁渲染後的原始碼
print(driver.get_cookies()) # 獲取當前頁面Cookie
print(driver.current_url) # 獲取當前url
# driver.close() 關閉當前頁面，如果只有一個頁面，會關閉瀏覽器
driver.quit() # 關閉瀏覽器

三、查詢元素

查詢單個元素（如果有多個匹配的元素，則返回第一個匹配到的元素）
- find_element_by_id 通過id查詢
```
login_form = driver.find_element_by_id('loginForm')
```
- find_element_by_name 通過name查詢
```
username = driver.find_element_by_name('username')
password = driver.find_element_by_name('password')
```
- find_element_by_xpath 通過xpath查詢
```
login_form = driver.find_element_by_xpath("//form[@id='loginForm']")
```
- find_element_by_link_text 通過連結文字獲取超連結元素
```
continue_link = driver.find_element_by_link_text('Continue')
```
- find_element_by_partial_link_text 通過部分連結文字獲取超連結元素
```
continue_link = driver.find_element_by_partial_link_text('Conti')
```
- find_element_by_tag_name 通過標籤名查詢
```
heading1 = driver.find_element_by_tag_name('h1')
```
- find_element_by_class_name 通過類名查詢
```
content = driver.find_element_by_class_name('content')
```
- find_element_by_css_selector 通過css選擇器查詢
```
content = driver.find_element_by_css_selector('p.content') 
```
一次查詢多個元素（返回的是元素列表）
- find_elements_by_name
- find_elements_by_xpath
- find_elements_by_link_text
- find_elements_by_partial_link_text
- find_elements_by_tag_name
- find_elements_by_class_name
- find_elements_by_css_selector

此外還有兩個私有方法find_element和find_elements

from selenium.webdriver.common.by import By

driver.find_element(By.XPATH, '//button[text()="Some text"]')
driver.find_elements(By.XPATH, '//button')

By類的其他屬性還包括：

ID = "id"
XPATH = "xpath"
LINK_TEXT = "link text"
PARTIAL_LINK_TEXT = "partial link text"
NAME = "name"
TAG_NAME = "tag name"
CLASS_NAME = "class name"
CSS_SELECTOR = "css selector"

四、滑鼠動作鏈

有些時候，我們需要再頁面上模擬一些滑鼠操作，比如雙擊、右擊、拖拽甚至按住不動等，我們可以通過匯入ActionChains 類來做到。

匯入ActionChains類

from selenium.webdriver import ActionChains

一般樣式
```
ActionChains(driver).操作方法1.操作方法2.....perform()
```
ActionChains物件上的操作方法儲存在物件的佇列中，在呼叫perform（）方法時，才會按照佇列中的順序去觸發操作
常見方法
- click(on_element=None)
  - 單擊元素。如果沒有傳入引數，則在當前滑鼠位置進行操作
- click_and_hold(on_element=None)
  - 在元素上單擊滑鼠左鍵並按住不放。如果沒有傳入引數，則在當前滑鼠位置進行操作
- context_click(on_element=None)
  - 在元素上進行右擊。如果沒有傳入引數，則在當前滑鼠位置進行操作
- double_click(on_element=None)
  - 在元素上進行雙擊。如果沒有傳入引數，則在當前滑鼠位置進行操作
- drag_and_drop(source,target)
  - 在起始元素上按住滑鼠左鍵，並拖動到目標元素上進行釋放
- drag_and_drop_by_offset(source,xoffset,yoffset)
  - 滑鼠點選元素，並按住偏移量進行拖放
- move_by_offset(xoffset,yoffset)
  - 滑鼠從當前位置按照偏移量進行移動
- move_to_element(to_element)
  - 滑鼠移動到元素中間位置

五、頁面下拉框處理

我們已經知道了怎樣向文字方塊中輸入文字，但是有時候我們會碰到<select> </select>標籤的下拉框。直接點選下拉框中的選項不一定可行。

WebDriver的支援類包括一個叫做 Select的類，他提供有用的方法處理這些內容:

from selenium.webdriver.support.ui import Select
select = Select(driver.find_element_by_name('name'))
select.select_by_index(index) #index索引從0開始
select.select_by_visible_text("text") #text是在option標籤文字的值，是顯示在下拉框的值
select.select_by_value(value) #value是option標籤的一個屬性值，並不是顯示在下拉框中的值

取消選擇
```
select.deselect_all()
```

六、彈窗處理

Selenium WebDriver 內建了對處理彈出對話方塊的支援。在你的某些動作之後可能會觸發彈出對話方塊，你可以像下面這樣存取對話方塊:

alert = driver.switch_to.alert() # 切換進alert
print(alert.text())# 列印alert文字內容
alert.accept()# 關閉彈框(接受)
# alert.dismiss() 關閉彈窗(拒絕)
# alert.send_keys('selenium') 向彈窗裡輸入內容

七、頁面切換

瀏覽器一般會開啟多個視窗，切換視窗的方法如下：

driver.switch_to.window("視窗名")

或者你也可以在」switch_to_window()」中使用」視窗控制程式碼」來開啟它，知道了這些，你就可以迭代所有已經開啟的視窗了:

for handle in driver.window_handles:
    driver.switch_to_window(handle)

八、存取瀏覽器歷史記錄

在瀏覽歷史中前進和後退你可以使用:
```
driver.forward()
driver.back()
```

九、cookies

獲取所有cookies
```
driver.get_cookies()
```
刪除某個cookie
```
driver.delete_cookie("CookieName")
```
刪除所有cookies
```
driver.delete_all_cookies()
```

十、頁面等待(Waits)

現在的大多數的Web應用程式是使用Ajax技術。當一個頁面被載入到瀏覽器時，該頁面內的元素可以在不同的時間點被載入。這使得定位元素變得困難，如果元素不再頁面之中，會丟擲ElementNotVisibleException異常。使用 waits, 我們可以解決這個問題。waits提供了一些操作之間的時間間隔，主要是定位元素或針對該元素的任何其他操作。

Selenium Webdriver 提供兩種型別的waits：隱式和顯式。顯式等待會讓WebDriver等待滿足一定的條件以後再進一步的執行。而隱式等待讓Webdriver等待一定的時間後再才是查詢某元素。

顯示等待

顯式等待是你在程式碼中定義等待一定條件發生後再進一步執行你的程式碼。

這裡有一些方便的方法讓你只等待需要的時間。WebDriverWait結合ExpectedCondition 是實現的一種方式。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Firefox()
driver.get("http://somedomain/url_that_delays_loading")
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()

在丟擲TimeoutException異常之前將等待10秒。 WebDriverWait 預設情況下會每0.5秒呼叫一次ExpectedCondition直到結果成功返回。 ExpectedCondition成功的返回結果是一個布林型別的true或是不為null的返回值。

下面是一些內建的等待條件，你可以直接呼叫這些條件：

title_is
title_contains
presence_of_element_located
visibility_of_element_located
visibility_of
presence_of_all_elements_located
text_to_be_present_in_element
text_to_be_present_in_element_value
frame_to_be_available_and_switch_to_it
invisibility_of_element_located
element_to_be_clickable – it is Displayed and Enabled.
staleness_of
element_to_be_selected
element_located_to_be_selected
element_selection_state_to_be
element_located_selection_state_to_be
alert_is_present

隱氏等待

隱式等待比較簡單，就是簡單地設定一個等待時間，單位為秒。

如果不設定，預設等待時間為0秒。

from selenium import webdriver

driver = webdriver.Firefox()
driver.implicitly_wait(10) # seconds
driver.get("http://somedomain/url_that_delays_loading")
myDynamicElement = driver.find_element_by_id("myDynamicElement")

爬蟲-selenium的使用

一、安裝

二、快速入門

三、查詢元素

查詢單個元素（如果有多個匹配的元素，則返回第一個匹配到的元素）

find_element_by_id 通過id查詢

find_element_by_name 通過name查詢

find_element_by_xpath 通過xpath查詢

find_element_by_link_text 通過連結文字獲取超連結元素

find_element_by_partial_link_text 通過部分連結文字獲取超連結元素

find_element_by_tag_name 通過標籤名查詢

find_element_by_class_name 通過類名查詢

find_element_by_css_selector 通過css選擇器查詢

一次查詢多個元素（返回的是元素列表）

find_elements_by_name

find_elements_by_xpath

find_elements_by_link_text

find_elements_by_partial_link_text

find_elements_by_tag_name

find_elements_by_class_name

find_elements_by_css_selector

此外還有兩個私有方法find_element和find_elements

By類的其他屬性還包括：

四、滑鼠動作鏈

匯入ActionChains類

一般樣式

常見方法

click(on_element=None)

click_and_hold(on_element=None)

context_click(on_element=None)

double_click(on_element=None)

drag_and_drop(source,target)

drag_and_drop_by_offset(source,xoffset,yoffset)

move_by_offset(xoffset,yoffset)

move_to_element(to_element)

五、頁面下拉框處理

WebDriver的支援類包括一個叫做 Select的類，他提供有用的方法處理這些內容:

取消選擇

六、彈窗處理

七、頁面切換

瀏覽器一般會開啟多個視窗，切換視窗的方法如下：

或者你也可以在」switch_to_window()」中使用」視窗控制程式碼」來開啟它， 知道了這些，你就可以迭代所有已經開啟的視窗了:

八、存取瀏覽器歷史記錄

在瀏覽歷史中前進和後退你可以使用:

九、cookies

獲取所有cookies

刪除某個cookie

刪除所有cookies