[英]JTidy or Jsoup for Java
最近我一直在使用BeautifulSoup在python中開發web scraper。 現在我想知道Java中最喜歡哪些庫。 我做了一些搜索,主要是看到JTidy和JSoup。 他們之間有什么區別?
JTidy
更常用於整理 HTML,即修復格式錯誤或錯誤的HTML,例如未封閉的標簽,例如,從<div><span>text</div>
到<div><span>text</span></div
。
另一方面, JSoup
提供了一個完整的API來解析HTML 並 提取部分HTML。 它允許您使用jQuery之類的選擇器來查找元素或DOM
方法 ,等同於您使用JavaScript的方法,例如getElementById
。 我說JSoup確實是BeautifulSoup的Java等價物。
例如,要使用JSoup提取Wikipedia文章的第一段,您可以使用以下內容:
String url = "http://en.wikipedia.org/wiki/Potato";
Document doc = Jsoup.connect(url).get();
Elements paragraphs = doc.select(".mw-content-ltr p");
String firstParagraph = paragraphs.first().text();
或者從這個非常自己的問題中提取標題:
Document doc = Jsoup.connect("http://stackoverflow.com/questions/12439078/jtidy-or-jsoup-for-java").get();
String question = doc.select("#question-header a").text(); // JTidy or Jsoup for Java
相當不錯的API,嗯? :-)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.