從jsoup解析中省略鏈接，廣告等

Question

我正在使用jsoup抓取不同的html頁面：

public class HtmlParse {
    public static void main(String[] args) throws IOException {
     String site = args[0];
        Document doc = Jsoup.connect(site).get();
        String htm = doc.body().text();
        System.out.println(htm);
    }
}

它工作得很漂亮。 但是，它的回報似乎有很多不足（例如：網站鏈接[a href]）。 有沒有一種快速的方法可以在jsoup中忽略它？ 我找到了getElementsByTag文獻，但是很難使用它。

先感謝您。

Answer 1

您可以“清理”已解析的文檔，請參見示例。 例如，僅保留簡單文本：

Whitelist whitelist = Whitelist.simpleText();
String result = Jsoup.clean(doc.html(), whitelist);

或者，你可以簡單的刪除所有a標簽：

doc.select("a").remove();

從jsoup解析中省略鏈接，廣告等

問題描述

1 個解決方案

解決方案1
6 已采納 2012-04-18 14:16:26

從jsoup解析中省略鏈接，廣告等

問題描述

1 個解決方案

解決方案1 6 已采納 2012-04-18 14:16:26

解決方案1
6 已采納 2012-04-18 14:16:26