簡體   English   中英

從jsoup解析中省略鏈接,廣告等

[英]Omit links, ads, etc. from jsoup parse

我正在使用jsoup抓取不同的html頁面:

public class HtmlParse {
    public static void main(String[] args) throws IOException {
     String site = args[0];
        Document doc = Jsoup.connect(site).get();
        String htm = doc.body().text();
        System.out.println(htm);
    }
}

它工作得很漂亮。 但是,它的回報似乎有很多不足(例如:網站鏈接[a href])。 有沒有一種快速的方法可以在jsoup中忽略它? 我找到了getElementsByTag文獻,但是很難使用它。

先感謝您。

您可以“清理”已解析的文檔,請參見示例 例如,僅保留簡單文本:

Whitelist whitelist = Whitelist.simpleText();
String result = Jsoup.clean(doc.html(), whitelist);

或者,你可以簡單的刪除所有a標簽:

doc.select("a").remove();

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM