繁体   English   中英

Java Web 爬虫和爬虫

[英]Java Web crawler and scraper

我的目的是从各种网站读取产品的成本详细信息,以便我可以在 Spring 应用程序的 html 页面中显示成本比较详细信息。 任何人都可以建议我如何做。 有什么技术可以实现这一目标吗? 这样我就可以随时从其他网站读取更新的数据并将其显示在我的 Spring 应用程序中。 我看到一些 Web抓取工具作为 Chrome 扩展程序,但它生成了一个 Excel 工作簿。 我如何在我的 Spring 应用程序中使用它并在 HTML 页面中显示它?

您可以从 Spring 应用程序发送 http 查询并解析更新数据的答案。 或者您可以使用任何外部工具来抓取您想要的任何内容并保存结果(例如作为 Excel 工作簿),您的应用程序将读取此结果并根据需要对其进行处理。

有很多基于开源 Java 和 Python 的爬虫可用,您可以根据自己的要求进行配置,其中一些如下所述。

Apache Nutch
StormCrawler
Jsoup
Jaunt

在您的情况下,由于您需要产品页面上的唯一价格,您可以使用 JSoup 构建自己的框架,这是一个 Java 中可用的框架或 Python 中的 Beautiful Soup 模块。

如果规模不是问题并且您只想每天抓取一些页面,我建议您构建自己的抓取工具。 否则,您可以使用 Nutch 或 StormCrawler

同样对于定制,请不要为不同的网页设置多个选择器,事实上,只需找出一个通用的标签、CSS 或模板即可获得价格。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM