[英]Java web scraper
什么是Java Web scraper的最佳庫? 我知道以下選擇:
我需要選擇一個選項來為一個可伸縮項目構建一個scraper。
如果你在抓,你為什么需要瀏覽器? 只是對頁面進行基本的cURL調用並獲得響應將為您提供所需的抓取功能。
這將有助於擴展性。 如果你想要一個瀏覽器,那就選擇HTMLUnit,這樣可以再次提高可伸縮性。
我最近推薦了Web Harvest ,並認為它開箱即用,除了圍繞HTTP 500響應代碼的一些問題...
使用jsoup ,它可以很好地從URL獲取響應,然后使用XPath Expression來解析響應中的數據。 我實現了這個並且效果很好。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.