<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
-網路爬蟲(又稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
-一般在瀏覽器上可以獲取到的,通過爬蟲也可以獲取到,常見的爬蟲語言有PHP,JAVA,C#,C++,Python,為啥我們經常聽到說的都是Python爬蟲,這是因為python爬蟲比較簡單,功能比較齊全。
通過Xpath進行爬蟲就是獲取到頁面html後通過路徑的表示式來選取標籤節點,沿著路徑選取需要爬取的資料。
Xpath常用表示式:
表示式 | 描述 |
---|---|
/ | 從根節點選取(取子節點) |
// | 選擇的當前節點選擇檔案中的節點 |
. | 選取當前節點。 |
… | 選取當前節點的父節點。 |
@ | 選取屬性 |
* | 表示任意內容(萬用字元) |
| | 運運算元可以選取多個路徑 |
Xpath常用函數:
函數 | 用法 | 解釋 |
---|---|---|
startswith() | xpath(‘//div[starts-with(@id,”celent”)]‘) | #選取id值以celent開頭的div節點 |
contains() | xpath(‘//div[contains(@id,”celent”)]‘) | #選取id值包含celent的div節點 |
and() | xpath(‘//div[contains(@id,”celent”) and contains(@id,”in”)]‘) | #選取id值包含celent的div節點 |
text() | _.xpath(’./div/div[4]/a/em/text()’) | #選取em標籤下文字內容 |
Xpath實操解析:
# 案例1 # //為從當前html中選取節點;[@class="c1text1"]為獲取所有的class為c1text1的節點;/h1[1]為選取的節點下的第一個h1節點,如果沒有[1]則是獲取所有的,可以通過迴圈進行獲取資料 etreeHtml.xpath('//*[@class="c1text1"]/h1[1]/text()') # 案例2 #//為從當前html中選取節點;[@class="c1text1"]為獲取所有的class為c1text1的節點;/a為獲取當前節點下的所有a標籤節點,得到一個ObjectList;通過for迴圈獲取裡面每個標籤資料,./@src為獲取當前節點的src屬性值 etreeHtml2 = etreeHtml.xpath('//*[@class="c1text1"]/a') for _ in etreeHtml2: etreeHtml.xpath(./@src)
本次範例以爬取我的CSDN文章列表資訊儲存到資料庫為案列
通過F12開啟開發者模式,點選左上角圖示可參考下圖,選擇需要爬取資料的容器,在右邊選擇複製選擇xpath就可以得到xpath路徑了(//*[@id=“userSkin”]/div[2]/div/div[2]/div[1]/div[2]/div/div);
# 匯入需要的庫 import requests from lxml import etree import pymysql # 文章詳情資訊類 class articleData(): def __init__(self, title, abstract, path,date): self.title = title #文章名稱 self.abstract = abstract #文章摘要 self.path = path #文章路徑 self.date = date #釋出時間 def to_string(self): print("文章名稱:"+self.title +";文章摘要:"+self.abstract +";文章路徑:"+self.path +";釋出時間:"+self.date) #儲存狗狗詳情資料 #儲存資料 def saveData(DataObject): count = pymysql.connect( host='xx.xx.xx.xx', # 資料庫地址 port=3306, # 資料庫埠 user='xxxxx', # 資料庫賬號 password='xxxxxx', # 資料庫密碼 db='xxxxxxx' # 資料庫名 ) # 建立資料庫物件 db = count.cursor() # 寫入sql # print("寫入資料:"+DataObject.to_string()) sql = f"insert into article_detail(title,abstract,alias,path,date) " f"values ('{DataObject.title}','{DataObject.abstract}','{DataObject.path}','{DataObject.date}')" # 執行sql print(sql) db.execute(sql) # 儲存修改內容 count.commit() db.close() # 爬取資料的方向 def getWebData(): # 網站頁面路徑 url = "https://blog.csdn.net/BadBoyxiaolin?spm=1000.2115.3001.5343" # 請求頭,模擬瀏覽器請求 header = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36" } # 獲取頁面所有節點程式碼 html = requests.get(url=url, headers=header) # 列印頁面程式碼檢視 # print(html.text) # 如果亂碼可以設定編碼格式 # html.encoding = 'gb2312' # 通過xpath獲取資料對應節點 etreeHtml = etree.HTML(html.text) dataHtml = etreeHtml.xpath('//*[@class="mainContent"]/div/div/div') # 迴圈獲取資料 for _ in dataHtml: # ''.join()是將內容轉換為字串可以後面接replace資料進行處理 title = ''.join(_.xpath('./article/a/div[1]/h4/text()'))#文章標題 abstract = ''.join(_.xpath('./article/a/div[2]/text()'))#文章摘要 path = ''.join(_.xpath('./article/a/@href'))#文章路徑 date = ''.join(_.xpath('./article/a/div[3]/div/div[2]/text()')).replace(' ','').replace('·','').replace('釋出部落格','')#釋出時間 #初始化文章類資料 article_data = articleData(title,abstract,path,date) article_data.to_string() #列印資料看看是否對 #儲存資料到資料庫 # saveData(article_data) if __name__ == "__main__": getWebData()
到此這篇關於Python爬蟲獲取資料儲存到資料庫中的文章就介紹到這了,更多相關Python爬蟲資料儲存到資料庫內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45