繁体   English   中英

从网页中提取内容并使用Java进行比较

[英]Extracting contents from a webpage and comparing using Java

我正在开发一个Java项目,其中有一个子模块,我需要在该子模块中从网页中提取内容[文本,图像,颜色],并将其与另一个网页进行比较。 我打算使用WinHTTrack软件在本地下载网页,但是问题是它没有将其保存为HTML。 如何使用WinHTTrack之类的软件下载带有HTML扩展名的网页[或仅通过ctrl + s保存网页就可以了?]。 我也计划在本地下载网页后使用HTML解析器提取3种内容类型[文本,图像,颜色]。 那么要使用哪个解析器呢?

我将使用Httrack,它也将获取html文件。 您可能将winhttrack项目文件作为唯一的输出文件,但是如果您在项目目录中进行检查,则将存在html文件(以及图像等)。 我建议使用-http://htmlparser.sourceforge.net/ 它是一个Java库,并且由于您的项目是Java项目,因此使用起来应该非常容易。 您还可以使用org.htmlparser.parserapplications.SiteCapturer将整个网站保存在本地(并指定是否还应捕获图像等资源)。 希望能帮助到你。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM