[英]Nutch best option for persistent storage in EMR for raw data
我必須在 EMR AWS 服務上使用 Nutch 1.x 爬取大約 30k 到 50k 的域。 這將是漸進的,即首先抓取所有頁面,然后僅抓取這些網站的新頁面或更新頁面。 對於索引,我使用 Apache Solr。我對 EMR 的最佳實踐幾乎沒有疑問
org.apache.hadoop.io.compress.ZStandardCodec
是一個不錯的選擇。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.