簡體 English 中英

Nutch 在 EMR 中對原始數據進行持久存儲的最佳選擇

[英]Nutch best option for persistent storage in EMR for raw data

原文 2022-05-07 16:47:00 2 1 amazon-web-services/ amazon-s3/ amazon-emr/ nutch

我必須在 EMR AWS 服務上使用 Nutch 1.x 爬取大約 30k 到 50k 的域。 這將是漸進的，即首先抓取所有頁面，然后僅抓取這些網站的新頁面或更新頁面。 對於索引，我使用 Apache Solr。我對 EMR 的最佳實踐幾乎沒有疑問

如果我必須重新索引或分析舊的爬取數據，我認為原始數據應該存儲在 S3 上。 這是正確的選擇嗎？
對於我的第一個問題，是將 S3 配置為 HDFS 的后端存儲更好，還是我應該在 EMR 作業結束時手動復制文件夾。
在任何一種情況下，為了優化原始數據在 S3 中的存儲，我如何在從 EMR 集群導入或導出 S3 時壓縮數據。
我如何指示 Nutch 僅從給定的種子中抓取新找到的頁面

1 個解決方案

Nutch 能夠直接從 S3 讀取/寫入，請參閱using-s3-as-nutch-storage-system 。
將段和 CrawlDb 直接寫入 S3 是有意義的。 但是將其保留在 HDFS 上，然后將 (distcp) 復制到 S3 也是可以的。
請參閱mapreduce.output.fileoutputformat.compress.codec - org.apache.hadoop.io.compress.ZStandardCodec是一個不錯的選擇。
（最好單獨再問一遍）抓取的域是否都提供站點地圖？ 否則，挑戰是許多新的 URL 重新獲取不太可能已知的頁面。 如果您想要所有新頁面或確保所有已刪除的頁面都被識別為這樣，則重新抓取所有內容會更容易。

AWS 上用於 Docker 應用程序的持久性 UGC 文件存儲

[英]Persistent UGC File Storage on AWS For Docker Application

AWS EMR：主節點是否在EMR集群中存儲hdfs數據？

[英]AWS EMR: Does master node stores hdfs data in EMR cluster?

如何清除 AWS SageMaker 上筆記本實例的持久存儲？

[英]How do you clear the persistent storage for a notebook instance on AWS SageMaker?

自動化 AWS EMR 創建、終止和 pyspark 作業的最佳方式

[英]Best way to automate AWS EMR Creation,termination and pyspark jobs

使用 Snowpark python 將雪花數據卸載到 S3。如何提供存儲集成選項

[英]Use Snowpark python to unload snowflake data to S3. How to provide storage integration option

永久磁盤丟失一些數據

[英]Persistent disk losing some data

在可使用 API 訪問的低成本存儲中歸檔結構化數據的最佳方法是什么？

[英]What is the best way to archive structured data in low cost storage that can be accessed using API?

如何從 GKE 中的持久卷中刪除數據？

[英]How to delete data from a persistent volume in GKE?

無法在 AWS EMR 中使用 Pyspark 或 Python 從 mongoDB 讀取數據

[英]Unable to read data from mongoDB using Pyspark or Python in AWS EMR

Postgresql k8s上的數據無法持久化

[英]Postgresql data on k8s cannot be made persistent

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 AWS 上用於 Docker 應用程序的持久性 UGC 文件存儲 AWS EMR：主節點是否在EMR集群中存儲hdfs數據？如何清除 AWS SageMaker 上筆記本實例的持久存儲？自動化 AWS EMR 創建、終止和 pyspark 作業的最佳方式使用 Snowpark python 將雪花數據卸載到 S3。如何提供存儲集成選項永久磁盤丟失一些數據在可使用 API 訪問的低成本存儲中歸檔結構化數據的最佳方法是什么？如何從 GKE 中的持久卷中刪除數據？無法在 AWS EMR 中使用 Pyspark 或 Python 從 mongoDB 讀取數據 Postgresql k8s上的數據無法持久化

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM