<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
Jsoup是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和運算元據。
Jsoup類是任何Jsoup程式的入口點,並將提供從各種來源載入和解析HTML檔案的方法。
static Connection connect(String url) | 建立並返回URL的連線。 |
---|---|
static Document parse(File in, String charsetName) | 將指定的字元集檔案解析成檔案。 |
static Document parse(String html) | 將給定的html程式碼解析成檔案。 |
static String clean(String bodyHtml, Whitelist whitelist) | 從輸入HTML返回安全的HTML,通過解析輸入HTML並通過允許的標籤和屬性的白名單進行過濾。 |
該類表示通過Jsoup庫載入HTML檔案。可以使用此類執行適用於整個HTML檔案的操作。
HTML元素是由標籤名稱,屬性和子節點組成。 使用Element類,您可以提取資料,遍歷節點和操作HTML。
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.2</version> </dependency>
Document document = Jsoup.connect("http://www.yiibai.com").get(); Document document = Jsoup.parse( new File( "D:/temp/index.html" ) , "utf-8" );``` String html = "<html><head><title>First</title></head><body><p>Parsed</p></body></html>"; Document document = Jsoup.parse(html);
// 解析檔案,獲取doc物件 Document doc = Jsoup.parse(new File("C:\Users\myqxin\Desktop\set.html"), "utf8"); // 1,根據id查詢元素 getElementById Element element1 = doc.getElementById("people"); // 2,根據標籤獲取元素 getElementsByTag Element element2 = doc.getElementsByTag("span").first(); // 3,根據class獲取元素 getElementsByClass Element element3 = doc.getElementsByClass("").first(); // 4,根據屬性獲取元素 getElementsByAttribute Element element4 = doc.getElementsByAttribute("").last(); // 根據屬性和屬性值獲取 Element element5 = doc.getElementsByAttributeValue("abc","123").last();
selector選擇器概述
Selector選擇器組合使用
偽選擇器selectors
attr(String key)
獲取和attr(String key, String value)
設定屬性attributes()
獲得所有屬性id()
,className()
和classNames()
text()
獲取和text(String value)
設定文字內容html()
獲取和html(String value)
設定內部HTML內容outerHtml()
獲取外部HTML值data()
獲取資料內容(例如script
和style
標籤)tag()
和 tagName()
append(String html)
, prepend(String html)
appendText(String text)
, prependText(String text)
appendElement(String tagName)
, prependElement(String tagName)
html(String value)
在解析檔案並找到一些元素之後,您將需要獲取這些元素中的資料。
Element.id()
Element.tagName()
Element.className()
和 Element.hasClass(String className)
以上就是java爬蟲Jsoup主要類及功能使用詳解的詳細內容,更多關於java爬蟲Jsoup類功能的資料請關注it145.com其它相關文章!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45