繁体   English   中英

如何使用 Jsoup 从 html 正文中排除任何锚元素?

[英]How do I exclude any anchor element from html body text with Jsoup?

Document doc=Jsoup.connect(url).userAgent("Mozilla/5.0 +http://www.google.com/bot.html)").timeout(100000).get();
data.add(doc.body().text());

这给了我包括超链接文本或链接文本在内的文本,但我不需要那个。 我只想要纯文本,比如用<p><b>等标签编写的文本或不带任何标签的文本。

如果你只是想删除所有的a标签,你可以简单地selectremove它们:

doc.select("a").remove();

您可以通过将更多元素添加到select来附加更多要删除的元素

doc.select("a, div, script").remove();

试试这个:

for(Element e : doc.body().select("*:not(a)")) {
    data.add(e.ownText());
}

您可以使用如下所示的 CSS 查询排除其他元素:

*:not(a, p, div)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM