繁体   English   中英

Java web scraper

[英]Java web scraper

什么是Java Web scraper的最佳库? 我知道以下选择:

  1. 的HtmlUnit
  2. Lobo浏览器

我需要选择一个选项来为一个可伸缩项目构建一个scraper。

如果你在抓,你为什么需要浏览器? 只是对页面进行基本的cURL调用并获得响应将为您提供所需的抓取功能。

这将有助于扩展性。 如果你想要一个浏览器,那就选择HTMLUnit,这样可以再次提高可伸缩性。

我最近推荐了Web Harvest ,并认为它开箱即用,除了围绕HTTP 500响应代码的一些问题...

使用jsoup ,它可以很好地从URL获取响应,然后使用XPath Expression来解析响应中的数据。 我实现了这个并且效果很好。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM