簡體   English   中英

用於Java的JTidy或Jsoup

[英]JTidy or Jsoup for Java

最近我一直在使用BeautifulSoup在python中開發web scraper。 現在我想知道Java中最喜歡哪些庫。 我做了一些搜索,主要是看到JTidy和JSoup。 他們之間有什么區別?

JTidy更常用於整理 HTML,即修復格式錯誤或錯誤的HTML,例如未封閉的標簽,例如,從<div><span>text</div><div><span>text</span></div

另一方面, JSoup提供了一個完整的API來解析HTML 提取部分HTML。 它允許您使用jQuery之類的選擇器來查找元素或DOM方法 ,等同於您使用JavaScript的方法,例如getElementById 我說JSoup確實是BeautifulSoup的Java等價物。

例如,要使用JSoup提取Wikipedia文章的第一段,您可以使用以下內容:

String url = "http://en.wikipedia.org/wiki/Potato";
Document doc = Jsoup.connect(url).get();
Elements paragraphs = doc.select(".mw-content-ltr p");
String firstParagraph = paragraphs.first().text();

或者從這個非常自己的問題中提取標題:

Document doc = Jsoup.connect("http://stackoverflow.com/questions/12439078/jtidy-or-jsoup-for-java").get();
String question = doc.select("#question-header a").text(); // JTidy or Jsoup for Java

相當不錯的API,嗯? :-)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM