繁体   English   中英

用于HTML分析的Java库

[英]Java library for HTML analysis

(我见过类似的问题,但我认为这些问题都不能满足我的特定需求,因此...)

我想知道是否有一个Java库,用于分析现实世界(阅读不完整,格式错误)的HTML。 通过分析,我的意思是:

  • 找出HTML块中最突出的颜色
  • 将颜色更改为其他颜色(因此,还必须支持HTML的修改)
  • 修剪掉不需要的标签
  • 修复HTML以生成格式正确的HTML代码段

最后两个部分由Jericho和jTidy等库完成。 在这些之上的“插件”会很棒。

提前致谢!

您可能想查看TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

好吧,我先将其整理成有效的XML,然后使用XSLT进行条件深层复制,在该区域中,我将进行最突出的颜色/修剪/所需的任何处理。

看一下JTidy ,它是HTML Tidy的Java端口。 根据您选择的选项,它将修复格式不正确的HTML并进行清理。

您还需要其他东西来改变颜色。

也许您会在此列表中找到某些内容(尝试使用TagSoup,NekoHTML,VietSpider HTMLParser)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM