<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
在我平時的工作中,偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標籤,只保留純文字內容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說,我們平時使用到的集中解析的方法。
通過爬蟲爬到的HTML內容,從程式角度來講,就是一個字串。我們可以對其按照純文書處理的方式來處理。
我們在做文書處理的時候,第一個想到的就是正規表示式。從一個字串中刪除HTML,對於正則來說,還是比較簡單的。畢竟還是有固定的格式,比如“<...>”。
我們常用的的正則就是 <[^>]>
或者 <.*?>
。
我們在使用正則的時候,需要注意的是正則預設是貪婪匹配。也就是說,正規表示式 <.*>
能夠匹配到更多的HTML內容,而不是單個標籤。
現在,讓我們測試一下它是否能從HTML源中刪除標籤。
在我們測試刪除HTML標籤之前,首先讓我們建立一個HTML例子,例如example1.html
。
<!DOCTYPE html> <html> <head> <title>這是標題</title> </head> <body> <p> 如果應用程式X沒有啟動,可能的原因是<br/> 1. <a href="https://maven.apache.org" rel="external nofollow" >Maven</a>沒有安裝<br/> 2. 磁碟空間不足<br/> 3. 記憶體不足 </p> </body> </html>
現在,讓我們寫一個測試,用String.replaceAll()
來刪除HTML標籤。
String html = ... // load example1.html String result = html.replaceAll("<[^>]`>", ""); System.out.println(result);
如果我們執行這個測試方法,我們會看到結果。
這是標題
如果應用程式X沒有啟動,可能的原因是
1.Maven沒有安裝
2.磁碟空間不足
3.沒有足夠的記憶體
輸出結果保留了剝離後的HTML的空白處。我們在處理提取的文字時,可以很容易地刪除或跳過這些空行或空白處。
我們剛才已經看到了,通過使用Regex來刪除HTML標籤是非常簡單。但是粗暴的使用這種方法會有很多問題,我們不能預測最終的結果會是怎麼樣的。
例如,一個HTML檔案可能有<script>
或<style>
標籤,而我們可能不希望在結果中出現它們的內容。
此外,<script>
、<style>
、甚至是<body>
標籤中的文字可能包含 <
或 >
字元。如果是這種情況,我們的正則方法可能會出錯。
現在,讓我們看看另一個例子,比如example2.html
。
<!DOCTYPE HTML> <html> <head> <title>這是標題</title> </head> <script> // some js function </script> <body> <p> 如果應用程式X沒有啟動,可能的原因是<br/> 1. <a id="link" href="http://maven.apache.org/" rel="external nofollow" > Maven </a> 沒有安裝<br/> 2. 磁碟空間不足 (<1G) <br/> 3. 記憶體不足(<64MB)<br/> </p> </body> </html>
現在我們有一個<script>
標籤和 <
字元在<body>
標籤內。
如果我們對example2.html
使用同樣的方法,我們會得到如下內容。
這是標題
// some js function
如果應用程式X沒有啟動,可能的原因是
1.
Maven
沒有安裝
2. 磁碟空間不足 (
3. 記憶體不足(
顯然,由於"<"字元的存在,我們丟失了一些文字。所以正則在處理文字的時候並不是萬能的。我們可以使用一些 HTML 解析器來做這些比較複雜的場景。
Jsoup 是一個流行的HTML解析庫,如果想要從一個HTML檔案中提取文字,我們可以簡單地呼叫Jsoup.parse(htmlString).text()
。
在專案中使用的時候,我們首先需要新增 jsoup 的依賴庫,我們這裡就通過maven的方式引入。
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.14.3</version> </dependency>
我們用 example2.html
來測試一下。
String html = ... // load example2.html System.out.println(Jsoup.parse(html).text());
如果我們讓這個方法執行,它就會列印出來。
這是標題 如果應用程式X沒有啟動,可能的原因是 1.Maven沒有安裝 2.沒有足夠的(<1G)磁碟空間 3.沒有足夠的(<64MB)記憶體
從輸出結果可知,Jsoup已經成功地從HTML檔案中提取了文字。另外,<script>
元素中的文字已經被忽略了。
此外,預設情況下,Jsoup會刪除所有的文字格式和空白處,比如換行符。
HTMLCleaner 也是一個HTML解析庫。
首先,我們需要在pom.xml
中新增HTMLCleaner 依賴。
<dependency> <groupId>net.sourceforge.htmlcleaner</groupId> <artifactId>htmlcleaner</artifactId> <version>2.25</version> </dependency>
我們可以設定[各種引數](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們在這裡使用HTMLCleaner在解析example2.html
時跳過<script>
元素。
String html = ... // load example2.html CleanerProperties props = new CleanerProperties(); props.setPruneTags("script"); String result = new HtmlCleaner(props).clean(html).getText().toString(); System.out.println(result);
執行一下,HTMLCleaner將產生這樣的輸出。
這是標題
如果應用程式X沒有啟動,可能的原因是:
1.Maven沒有安裝
2.沒有足夠的(<1G)磁碟空間
3.記憶體不足(<64MB)
我們可以看到,<script>
元素中的內容被忽略了, <br/>
標籤轉換為提取的文字中的換行符。另外, HTMLCleaner 保留了HTML的空白內容。
在這篇文章中,我們學習了幾種去除HTML的方法,我們需要注意的是,正則在文書處理的過程中並不是萬能的。
到此這篇關於詳解如何用Java去除HTML標籤的文章就介紹到這了,更多相關Java去除HTML標籤內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45