繁体 English 中英

从网页中提取内容并使用Java进行比较

[英]Extracting contents from a webpage and comparing using Java

原文 2012-03-06 06:22:14 8 1 java/ javascript

我正在开发一个Java项目，其中有一个子模块，我需要在该子模块中从网页中提取内容[文本，图像，颜色]，并将其与另一个网页进行比较。 我打算使用WinHTTrack软件在本地下载网页，但是问题是它没有将其保存为HTML。 如何使用WinHTTrack之类的软件下载带有HTML扩展名的网页[或仅通过ctrl + s保存网页就可以了？]。 我也计划在本地下载网页后使用HTML解析器提取3种内容类型[文本，图像，颜色]。 那么要使用哪个解析器呢？

1 个解决方案

我将使用Httrack，它也将获取html文件。 您可能将winhttrack项目文件作为唯一的输出文件，但是如果您在项目目录中进行检查，则将存在html文件（以及图像等）。 我建议使用-http://htmlparser.sourceforge.net/ 。 它是一个Java库，并且由于您的项目是Java项目，因此使用起来应该非常容易。 您还可以使用org.htmlparser.parserapplications.SiteCapturer将整个网站保存在本地（并指定是否还应捕获图像等资源）。 希望能帮助到你。

从网页中提取图像并进行比较

[英]Extracting images from webpage and comparing

使用Java从网页中提取数据

[英]Extracting Data from a webpage using java

Java RegExp-仅从网页中提取数字

[英]Java RegExp - Extracting only numbers from a webpage

从java中的2个arrays中比较和提取相似的字符串，不比较双字

[英]Comparing and extracting similar strings from 2 arrays in java, double words not compared

从byte []（Java）读取时提取ZipFile条目的内容

[英]extracting contents of ZipFile entries when read from byte[] (Java)

无法使用 java 将网页内容打印到本地系统中的文件

[英]cannot print webpage contents to a file in my local system using java

使用Selenium Webdriver从网页中提取表数据

[英]Extracting a table data from Webpage using Selenium webdriver

在Java中基于模板提取网页信息

[英]Extracting webpage information based on a template in Java

使用Java从html标记中提取内容

[英]Extracting content from html tags using java

使用Java从JSON中提取数据

[英]Extracting Data from JSON using Java

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从网页中提取图像并进行比较使用Java从网页中提取数据 Java RegExp-仅从网页中提取数字从java中的2个arrays中比较和提取相似的字符串，不比较双字从byte []（Java）读取时提取ZipFile条目的内容无法使用 java 将网页内容打印到本地系统中的文件使用Selenium Webdriver从网页中提取表数据在Java中基于模板提取网页信息使用Java从html标记中提取内容使用Java从JSON中提取数据

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM