简体   繁体   English

提取锚文本周围的单词

[英]Extracting words surrounding anchor text

我需要使用Java代码来提取围绕html内容的锚文本周围的单词的帮助,尤其是锚文本之前和之后(两侧)的七个单词(包括HTMl块级元素和标点符号)。

您可以为此使用正则表达式

You want to create new URL() from href and get only host part? 您要从href创建新的URL()并仅获取主机部分吗? Get a look at this class. 看看这堂课。

To find anchors and get href attribute I recommend Jericho library. 要查找锚点并获取href属性,我建议使用Jericho库。 I'm using it always when I need to parse a sample of HTML / XML and need no XML validation. 当我需要解析HTML / XML样本并且不需要XML验证时,我总是使用它。 It's fast and easy to use, and has a lot of examples on project's page. 它快速且易于使用,并且在项目页面上有很多示例。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM