簡體   English   中英

Java web scraper

[英]Java web scraper

什么是Java Web scraper的最佳庫? 我知道以下選擇:

  1. 的HtmlUnit
  2. Lobo瀏覽器

我需要選擇一個選項來為一個可伸縮項目構建一個scraper。

如果你在抓,你為什么需要瀏覽器? 只是對頁面進行基本的cURL調用並獲得響應將為您提供所需的抓取功能。

這將有助於擴展性。 如果你想要一個瀏覽器,那就選擇HTMLUnit,這樣可以再次提高可伸縮性。

我最近推薦了Web Harvest ,並認為它開箱即用,除了圍繞HTTP 500響應代碼的一些問題...

使用jsoup ,它可以很好地從URL獲取響應,然后使用XPath Expression來解析響應中的數據。 我實現了這個並且效果很好。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM