首頁 > 網際網路

C#版爬蟲工具 NSoup使用 像JQuery一樣操作字元

2019-12-11 23:56:30

爬蟲通常是偽造一個http請求,然後收到返回的html程式碼字串,然後從中解析出需要的資料。那麼,在返回的html中,要如何才能更方便的篩選出需要的資訊呢?作為.NET、C#中的一款優秀工具NSoup,就可以把html字串當做頁面,像JQuery一樣的通過ID、class、標籤等等過濾資料

1

建立ASP.NET MVC專案作為演示NSoup如何像JQuery一樣操作html字串。此處不再詳述如何建立MVC專案,參見下面的連結


2

在剛建立的專案MVCNSoup上面,點選滑鼠右鍵,選擇【管理 NuGet 程式包】,在彈出的介面點選【瀏覽】-> 輸入【NSoup】-> 選擇第一個,然後點選右側的【安裝】,就可以將NSoup新增到專案中來



3

在HomeController的Index方法中,新增一段Html字串,用於模擬爬取到的網頁內容


4

在HomeController中新增對NSoup的參照,然後在Index方法中新增通過指定ID獲取標籤值的程式碼(GetElementById)


5

在VS中設定斷點,按F5偵錯模式執行,可以看到已經按照預期的從html字串中獲取到了標籤的值


6

獲取指定標籤的所有節點 使用 GetElementsByTag,在偵錯模式下執行效果如圖所示


7

通過CSS查詢過濾器的格式獲取標籤值,偵錯執行效果如下



IT145.com E-mail:sddin#qq.com