詳解如何用Java去除HTML標籤

2022-12-03 14:01:31

使用正規表示式

通過爬蟲爬到的HTML內容，從程式角度來講，就是一個字串。我們可以對其按照純文書處理的方式來處理。

我們在做文書處理的時候，第一個想到的就是正規表示式。從一個字串中刪除HTML，對於正則來說，還是比較簡單的。畢竟還是有固定的格式，比如“<...>”。

我們常用的的正則就是 <[^>]> 或者 <.*?> 。

我們在使用正則的時候，需要注意的是正則預設是貪婪匹配。也就是說，正規表示式 <.*> 能夠匹配到更多的HTML內容，而不是單個標籤。

現在，讓我們測試一下它是否能從HTML源中刪除標籤。

正則測試刪除標籤1

在我們測試刪除HTML標籤之前，首先讓我們建立一個HTML例子，例如example1.html。

<!DOCTYPE html>
<html>
<head>
    <title>這是標題</title>
</head>
<body>
    <p>
        如果應用程式X沒有啟動，可能的原因是<br/>
        1. <a href="https://maven.apache.org" rel="external nofollow" >Maven</a>沒有安裝<br/>
        2. 磁碟空間不足<br/>
        3. 記憶體不足
    </p>
</body>
</html>

現在，讓我們寫一個測試，用String.replaceAll()來刪除HTML標籤。

String html = ... // load example1.html
String result = html.replaceAll("<[^>]`>", "");
System.out.println(result);

如果我們執行這個測試方法，我們會看到結果。

這是標題

如果應用程式X沒有啟動，可能的原因是
1.Maven沒有安裝
2.磁碟空間不足
3.沒有足夠的記憶體

輸出結果保留了剝離後的HTML的空白處。我們在處理提取的文字時，可以很容易地刪除或跳過這些空行或空白處。

正則測試刪除標籤2

我們剛才已經看到了，通過使用Regex來刪除HTML標籤是非常簡單。但是粗暴的使用這種方法會有很多問題，我們不能預測最終的結果會是怎麼樣的。

例如，一個HTML檔案可能有<script>或<style>標籤，而我們可能不希望在結果中出現它們的內容。

此外，<script>、<style>、甚至是<body>標籤中的文字可能包含 <或 >字元。如果是這種情況，我們的正則方法可能會出錯。

現在，讓我們看看另一個例子，比如example2.html。

<!DOCTYPE HTML>
<html>
<head>
    <title>這是標題</title>
</head>
<script>
    // some js function
</script>
<body>
    <p>
        如果應用程式X沒有啟動，可能的原因是<br/>
        1. <a
            id="link"
            href="http://maven.apache.org/" rel="external nofollow" >
            Maven
            </a> 沒有安裝<br/>
        2. 磁碟空間不足 (<1G) <br/>
        3. 記憶體不足(<64MB)<br/>
    </p>
</body>
</html>

現在我們有一個<script>標籤和 <字元在<body>標籤內。

如果我們對example2.html使用同樣的方法，我們會得到如下內容。

   這是標題
    // some js function
        如果應用程式X沒有啟動，可能的原因是
        1.
            Maven
             沒有安裝
        2. 磁碟空間不足 (
        3. 記憶體不足(

顯然，由於"<"字元的存在，我們丟失了一些文字。所以正則在處理文字的時候並不是萬能的。我們可以使用一些 HTML 解析器來做這些比較複雜的場景。

使用Jsoup

Jsoup 是一個流行的HTML解析庫，如果想要從一個HTML檔案中提取文字，我們可以簡單地呼叫Jsoup.parse(htmlString).text()。

在專案中使用的時候，我們首先需要新增 jsoup 的依賴庫，我們這裡就通過maven的方式引入。

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

我們用 example2.html來測試一下。

String html = ... // load example2.html
System.out.println(Jsoup.parse(html).text());

如果我們讓這個方法執行，它就會列印出來。

這是標題如果應用程式X沒有啟動，可能的原因是 1.Maven沒有安裝 2.沒有足夠的（<1G）磁碟空間 3.沒有足夠的（<64MB）記憶體

從輸出結果可知，Jsoup已經成功地從HTML檔案中提取了文字。另外，<script>元素中的文字已經被忽略了。

此外，預設情況下，Jsoup會刪除所有的文字格式和空白處，比如換行符。

使用HTMLCleaner

HTMLCleaner 也是一個HTML解析庫。

首先，我們需要在pom.xml中新增HTMLCleaner 依賴。

<dependency>
    <groupId>net.sourceforge.htmlcleaner</groupId>
    <artifactId>htmlcleaner</artifactId>
    <version>2.25</version>
</dependency>

我們可以設定[各種引數]（http://htmlcleaner.sourceforge.net/parameters.php）來控制HTMLCleaner的解析行為。我們在這裡使用HTMLCleaner在解析example2.html時跳過<script>元素。

String html = ... // load example2.html
CleanerProperties props = new CleanerProperties();
props.setPruneTags("script");
String result = new HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);

執行一下，HTMLCleaner將產生這樣的輸出。