[英]Omit links, ads, etc. from jsoup parse
我正在使用jsoup抓取不同的html頁面:
public class HtmlParse {
public static void main(String[] args) throws IOException {
String site = args[0];
Document doc = Jsoup.connect(site).get();
String htm = doc.body().text();
System.out.println(htm);
}
}
它工作得很漂亮。 但是,它的回報似乎有很多不足(例如:網站鏈接[a href])。 有沒有一種快速的方法可以在jsoup中忽略它? 我找到了getElementsByTag文獻,但是很難使用它。
先感謝您。
您可以“清理”已解析的文檔,請參見示例 。 例如,僅保留簡單文本:
Whitelist whitelist = Whitelist.simpleText();
String result = Jsoup.clean(doc.html(), whitelist);
或者,你可以簡單的刪除所有a
標簽:
doc.select("a").remove();
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.