Python爬蟲獲取資料儲存到資料庫中的超詳細教學(一看就會)

2022-06-11 22:00:22

1.簡介介紹

-網路爬蟲（又稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
-一般在瀏覽器上可以獲取到的，通過爬蟲也可以獲取到，常見的爬蟲語言有PHP,JAVA,C#,C++,Python，為啥我們經常聽到說的都是Python爬蟲，這是因為python爬蟲比較簡單，功能比較齊全。

2.Xpath獲取頁面資訊

通過Xpath進行爬蟲就是獲取到頁面html後通過路徑的表示式來選取標籤節點，沿著路徑選取需要爬取的資料。

Xpath常用表示式：

表示式	描述
/	從根節點選取（取子節點）
//	選擇的當前節點選擇檔案中的節點
.	選取當前節點。
…	選取當前節點的父節點。
@	選取屬性
*	表示任意內容（萬用字元）
\|	運運算元可以選取多個路徑

Xpath常用函數：

函數	用法	解釋
startswith()	xpath(‘//div[starts-with(@id,”celent”)]‘)	#選取id值以celent開頭的div節點
contains()	xpath(‘//div[contains(@id,”celent”)]‘)	#選取id值包含celent的div節點
and()	xpath(‘//div[contains(@id,”celent”) and contains(@id,”in”)]‘)	#選取id值包含celent的div節點
text()	_.xpath(’./div/div[4]/a/em/text()’)	#選取em標籤下文字內容

Xpath實操解析：

# 案例1
# //為從當前html中選取節點;[@class="c1text1"]為獲取所有的class為c1text1的節點;/h1[1]為選取的節點下的第一個h1節點,如果沒有[1]則是獲取所有的,可以通過迴圈進行獲取資料
etreeHtml.xpath('//*[@class="c1text1"]/h1[1]/text()')

# 案例2
#//為從當前html中選取節點;[@class="c1text1"]為獲取所有的class為c1text1的節點;/a為獲取當前節點下的所有a標籤節點,得到一個ObjectList;通過for迴圈獲取裡面每個標籤資料,./@src為獲取當前節點的src屬性值
etreeHtml2 = etreeHtml.xpath('//*[@class="c1text1"]/a')
for _ in etreeHtml2: 
	etreeHtml.xpath(./@src)

3.通過Xpath爬蟲實操

本次範例以爬取我的CSDN文章列表資訊儲存到資料庫為案列

3-1.獲取xpath

通過F12開啟開發者模式，點選左上角圖示可參考下圖，選擇需要爬取資料的容器，在右邊選擇複製選擇xpath就可以得到xpath路徑了（//*[@id=“userSkin”]/div[2]/div/div[2]/div[1]/div[2]/div/div）；

完整程式碼展示：

# 匯入需要的庫
import requests
from lxml import etree
import pymysql


# 文章詳情資訊類
class articleData():
    def __init__(self, title, abstract, path,date):
        self.title = title #文章名稱
        self.abstract = abstract #文章摘要
        self.path = path #文章路徑
        self.date = date #釋出時間


    def to_string(self):
        print("文章名稱:"+self.title
              +";文章摘要:"+self.abstract
              +";文章路徑:"+self.path
              +";釋出時間:"+self.date)

#儲存狗狗詳情資料
#儲存資料
def saveData(DataObject):
    count = pymysql.connect(
        host='xx.xx.xx.xx',  # 資料庫地址
        port=3306,  # 資料庫埠
        user='xxxxx',  # 資料庫賬號
        password='xxxxxx',  # 資料庫密碼
        db='xxxxxxx'  # 資料庫名
    )
    # 建立資料庫物件
    db = count.cursor()
    # 寫入sql
    # print("寫入資料:"+DataObject.to_string())
    sql = f"insert into article_detail(title,abstract,alias,path,date) " 
          f"values ('{DataObject.title}','{DataObject.abstract}','{DataObject.path}','{DataObject.date}')"
    # 執行sql
    print(sql)
    db.execute(sql)
    # 儲存修改內容
    count.commit()
    db.close()

# 爬取資料的方向
def getWebData():
    # 網站頁面路徑
    url = "https://blog.csdn.net/BadBoyxiaolin?spm=1000.2115.3001.5343"
    # 請求頭，模擬瀏覽器請求
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
    }
    # 獲取頁面所有節點程式碼
    html = requests.get(url=url, headers=header)
    # 列印頁面程式碼檢視
    # print(html.text)
    # 如果亂碼可以設定編碼格式
    # html.encoding = 'gb2312'
    # 通過xpath獲取資料對應節點
    etreeHtml = etree.HTML(html.text)
    dataHtml = etreeHtml.xpath('//*[@class="mainContent"]/div/div/div')
    # 迴圈獲取資料
    for _ in dataHtml:
        # ''.join()是將內容轉換為字串可以後面接replace資料進行處理
        title = ''.join(_.xpath('./article/a/div[1]/h4/text()'))#文章標題
        abstract = ''.join(_.xpath('./article/a/div[2]/text()'))#文章摘要
        path = ''.join(_.xpath('./article/a/@href'))#文章路徑
        date = ''.join(_.xpath('./article/a/div[3]/div/div[2]/text()')).replace(' ','').replace('·','').replace('釋出部落格','')#釋出時間
        #初始化文章類資料
        article_data = articleData(title,abstract,path,date)
        article_data.to_string() #列印資料看看是否對
        #儲存資料到資料庫
        # saveData(article_data)

if __name__ == "__main__":
    getWebData()

總結

到此這篇關於Python爬蟲獲取資料儲存到資料庫中的文章就介紹到這了,更多相關Python爬蟲資料儲存到資料庫內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！