首頁 > 軟體

基於pycharm的beautifulsoup4庫使用方法教學

2022-01-15 13:01:00

1.beautifulsoup4庫安裝

第一步:在控制檯輸入如下命令,安裝beautifulsoup4庫。

pip install beautifulsoup4

第二步:在控制檯輸入如下命令,驗證是否成功安裝beautifulsoup4庫。

第三步:pycharm中,點選file——settings——project——python interpreter——點選+號——搜尋beautifulsoup4——install package!

這樣就可以在.py檔案中匯入模組了!

2.beautifulsoup4庫使用

import requests
# 雖然庫名叫做beautiful4 但是在匯入時 使用的是其縮寫bs4 其中BeautifulSoup是一個類名
from bs4 import BeautifulSoup

url = 'https://www.baidu.com/s?'
# 由於一般網站都是供使用者存取 如果檢測到User-Agent是駭客或者其他可能拒絕存取 故此處模擬瀏覽器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
# 以防亂碼 此處將其編碼設定為utf-8 因為有中文
response.encoding = 'utf-8'
# print(response.text)
# 使用的解析器是html.parser 注意是.奧
soup = BeautifulSoup(response.text, 'html.parser')
# 列印解析後的結果
print(soup.prettify())

需要講解的都在程式碼註釋中了奧!

3.beautifulsoup4庫基本元素

beautifulsoup4庫是解析、遍歷、維護“標籤樹”的功能庫。

首先來看BeautifulSoup庫解析器,前兩個比較常用!

再來看BeautifulSoup庫的基本元素,可以這樣理解,標籤樹和HTML以及BeautifulSoup是一樣的,我們要看HTML的某些內容就使用BeautifulSoup的範例化物件檢視即可。

在上述程式碼的基礎上,增加如下幾行,結合基本元素的使用,可得到如圖所示。

需要注意的是,.string可以跨標籤,所以很有可能結果也為註釋,為了區分是標籤內的字串還是註釋,可以通過列印型別來判斷。

總結起來,可如下:

接下來,看一下BeautifulSoup庫的遍歷,其中畫紅框的迭代遍歷,可以用於for in迴圈中。

4.beautifulsoup4庫的HTML查詢方法

find_all( name , attrs , recursive , string , **kwargs )

find_all() 方法搜尋當前tag的所有tag子節點,並判斷是否符合過濾器的條件。

name 引數可以對名字為 name 的標籤進行檢索。

attrs引數可以對標籤屬性值為attrs的標籤進行檢索。

recursive參數列示是否對子孫全部檢索,預設是TRUE,如果只想搜尋當前節點的兒子資訊,可以置其為FALSE。

string 引數可以標籤中的字串內容進行檢索。

5.補充Json(Javascript Object Notation)

我們學過js的或者java的,應該對Json不陌生吧!

Json是一種有型別的鍵值對!

需要注意的是,鍵和值都需要用"“括起來,如果值是整數,則可以不用”"!

如果值是多值,則可以用[,];如果值是鍵值對,則可以用{:,:,},可以巢狀使用。

JSON一般用於介面,而YAML是無型別鍵值對,一般用於組態檔。

到此這篇關於基於pycharmbeautifulsoup4庫使用方法教學的文章就介紹到這了,更多相關pycharmbeautifulsoup4庫使用內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com