簡體   English   中英

如何使用 Jsoup 從 html 正文中排除任何錨元素?

[英]How do I exclude any anchor element from html body text with Jsoup?

Document doc=Jsoup.connect(url).userAgent("Mozilla/5.0 +http://www.google.com/bot.html)").timeout(100000).get();
data.add(doc.body().text());

這給了我包括超鏈接文本或鏈接文本在內的文本,但我不需要那個。 我只想要純文本,比如用<p><b>等標簽編寫的文本或不帶任何標簽的文本。

如果你只是想刪除所有的a標簽,你可以簡單地selectremove它們:

doc.select("a").remove();

您可以通過將更多元素添加到select來附加更多要刪除的元素

doc.select("a, div, script").remove();

試試這個:

for(Element e : doc.body().select("*:not(a)")) {
    data.add(e.ownText());
}

您可以使用如下所示的 CSS 查詢排除其他元素:

*:not(a, p, div)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM