繁体 English 中英

Java Web 爬虫和爬虫

[英]Java Web crawler and scraper

原文 2019-06-25 10:45:52 3 2 java/ web/ browser

我的目的是从各种网站读取产品的成本详细信息，以便我可以在 Spring 应用程序的 html 页面中显示成本比较详细信息。 任何人都可以建议我如何做。 有什么技术可以实现这一目标吗？ 这样我就可以随时从其他网站读取更新的数据并将其显示在我的 Spring 应用程序中。 我看到一些 Web抓取工具作为 Chrome 扩展程序，但它生成了一个 Excel 工作簿。 我如何在我的 Spring 应用程序中使用它并在 HTML 页面中显示它？

2 个解决方案

您可以从 Spring 应用程序发送 http 查询并解析更新数据的答案。 或者您可以使用任何外部工具来抓取您想要的任何内容并保存结果（例如作为 Excel 工作簿），您的应用程序将读取此结果并根据需要对其进行处理。

有很多基于开源 Java 和 Python 的爬虫可用，您可以根据自己的要求进行配置，其中一些如下所述。

Apache Nutch
StormCrawler
Jsoup
Jaunt

在您的情况下，由于您需要产品页面上的唯一价格，您可以使用 JSoup 构建自己的框架，这是一个 Java 中可用的框架或 Python 中的 Beautiful Soup 模块。

如果规模不是问题并且您只想每天抓取一些页面，我建议您构建自己的抓取工具。 否则，您可以使用 Nutch 或 StormCrawler

同样对于定制，请不要为不同的网页设置多个选择器，事实上，只需找出一个通用的标签、CSS 或模板即可获得价格。

Java web scraper

[英]Java web scraper

Java - 网络爬虫问题

[英]Java - Web Scraper Issue

Java中的多线程Web爬网程序

[英]Multithreaded Web Crawler in Java

Java Web Crawler库

[英]Java Web Crawler Libraries

网络爬虫Java

[英]Web Crawler Java

在Java Web爬网程序中实现线程

[英]Implementing Threads Into Java Web Crawler

在Java EE中创建Web爬网程序

[英]Creating a Web Crawler in Java EE

如何在Java中设计一个web爬虫？

[英]How to design a web crawler in Java?

Java中用于Web爬网程序的多线程DFS

[英]Multithreaded DFS for web crawler in Java

Java网络爬虫看到验证码

[英]Java web-scraper sees captcha

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Java web scraper Java - 网络爬虫问题 Java中的多线程Web爬网程序 Java Web Crawler库网络爬虫Java 在Java Web爬网程序中实现线程在Java EE中创建Web爬网程序如何在Java中设计一个web爬虫？ Java中用于Web爬网程序的多线程DFS Java网络爬虫看到验证码

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM