首頁 > 網際網路

Java 如何爬取網頁

2019-12-10 07:36:56

百度搜尋引擎的原理其中之一就是定期的派出網路爬蟲到網際網路上去爬取網頁.我這裡用java寫了一個最簡單的小程式來實現這一功能.

1

我希望輸入一個有效的網址後返回這一網址下的網頁原始碼,則有程式碼如圖:


2

通過網址連線到指定的網址


3

在執行之前把開發空間的的編碼改為UTF-8,否則編譯執行返回的網頁中的中文會變成亂碼


4

連線成功後通過連線物件得到輸入流,讀出輸入流就可以得到網頁程式碼


5

執行後得到的網頁程式碼如下


6

把返回的程式碼複製到EditPlus中執行一下看看



IT145.com E-mail:sddin#qq.com