[英]Java web scraper
什么是Java Web scraper的最佳库? 我知道以下选择:
我需要选择一个选项来为一个可伸缩项目构建一个scraper。
如果你在抓,你为什么需要浏览器? 只是对页面进行基本的cURL调用并获得响应将为您提供所需的抓取功能。
这将有助于扩展性。 如果你想要一个浏览器,那就选择HTMLUnit,这样可以再次提高可伸缩性。
我最近推荐了Web Harvest ,并认为它开箱即用,除了围绕HTTP 500响应代码的一些问题...
使用jsoup ,它可以很好地从URL获取响应,然后使用XPath Expression来解析响应中的数据。 我实现了这个并且效果很好。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.