繁体   English   中英

如何使用Jsoup从html提取指定长度的纯文本?

[英]How to extract plain text of specified length from html using Jsoup?

我使用jsoup-1.5.2解析html标签字符串,我想从html字符串中提取纯文本并指定文本的长度,并保留完整的html标签。

例如:

html代码:

<p><span>Mike <u>stopp<b>ed</b></u> his work</span></p>

我想要结果:

指定文字长度= 4

result:<p><span>Mike</span></p>

指定文字长度= 10

result:<p><span>Mike <u>stopp</u></span></p>

指定文字长度= 12

result:<p><span>Mike <u>stopp<b>ed</b></u></span></p>

指定文字长度= 16

result:<p><span>Mike <u>stopp<b>ed</b></u> his</span></p>

等等

我可以使用jsoup完成它吗?

不幸的是,使用Element类并不是一件容易的事。 原因是类Element中的'text()'方法“获取此元素及其所有子元素的组合文本”。 这真的很烦人,因为您不能只获取单个元素的文本。 您将需要使用Elements类中的Elements.select(String).text()方法,并可能使用通配符(如果可能)。 此方法将返回所有匹配节点的“组合”文本。 它以单个字符串形式返回,因此您可以在其上调用String的“ length() ”方法。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM