繁体 English 中英

Nutch 在 EMR 中对原始数据进行持久存储的最佳选择

[英]Nutch best option for persistent storage in EMR for raw data

原文 2022-05-07 16:47:00 7 1 amazon-web-services/ amazon-s3/ amazon-emr/ nutch

我必须在 EMR AWS 服务上使用 Nutch 1.x 爬取大约 30k 到 50k 的域。 这将是渐进的，即首先抓取所有页面，然后仅抓取这些网站的新页面或更新页面。 对于索引，我使用 Apache Solr。我对 EMR 的最佳实践几乎没有疑问

如果我必须重新索引或分析旧的爬取数据，我认为原始数据应该存储在 S3 上。 这是正确的选择吗？
对于我的第一个问题，是将 S3 配置为 HDFS 的后端存储更好，还是我应该在 EMR 作业结束时手动复制文件夹。
在任何一种情况下，为了优化原始数据在 S3 中的存储，我如何在从 EMR 集群导入或导出 S3 时压缩数据。
我如何指示 Nutch 仅从给定的种子中抓取新找到的页面

1 个解决方案

Nutch 能够直接从 S3 读取/写入，请参阅using-s3-as-nutch-storage-system 。
将段和 CrawlDb 直接写入 S3 是有意义的。 但是将其保留在 HDFS 上，然后将 (distcp) 复制到 S3 也是可以的。
请参阅mapreduce.output.fileoutputformat.compress.codec - org.apache.hadoop.io.compress.ZStandardCodec是一个不错的选择。
（最好单独再问一遍）抓取的域是否都提供站点地图？ 否则，挑战是许多新的 URL 重新获取不太可能已知的页面。 如果您想要所有新页面或确保所有已删除的页面都被识别为这样，则重新抓取所有内容会更容易。

AWS 上用于 Docker 应用程序的持久性 UGC 文件存储

[英]Persistent UGC File Storage on AWS For Docker Application

AWS EMR：主节点是否在EMR集群中存储hdfs数据？

[英]AWS EMR: Does master node stores hdfs data in EMR cluster?

如何清除 AWS SageMaker 上笔记本实例的持久存储？

[英]How do you clear the persistent storage for a notebook instance on AWS SageMaker?

自动化 AWS EMR 创建、终止和 pyspark 作业的最佳方式

[英]Best way to automate AWS EMR Creation,termination and pyspark jobs

使用 Snowpark python 将雪花数据卸载到 S3。如何提供存储集成选项

[英]Use Snowpark python to unload snowflake data to S3. How to provide storage integration option

永久磁盘丢失一些数据

[英]Persistent disk losing some data

在可使用 API 访问的低成本存储中归档结构化数据的最佳方法是什么？

[英]What is the best way to archive structured data in low cost storage that can be accessed using API?

如何从 GKE 中的持久卷中删除数据？

[英]How to delete data from a persistent volume in GKE?

无法在 AWS EMR 中使用 Pyspark 或 Python 从 mongoDB 读取数据

[英]Unable to read data from mongoDB using Pyspark or Python in AWS EMR

Postgresql k8s上的数据无法持久化

[英]Postgresql data on k8s cannot be made persistent

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 AWS 上用于 Docker 应用程序的持久性 UGC 文件存储 AWS EMR：主节点是否在EMR集群中存储hdfs数据？如何清除 AWS SageMaker 上笔记本实例的持久存储？自动化 AWS EMR 创建、终止和 pyspark 作业的最佳方式使用 Snowpark python 将雪花数据卸载到 S3。如何提供存储集成选项永久磁盘丢失一些数据在可使用 API 访问的低成本存储中归档结构化数据的最佳方法是什么？如何从 GKE 中的持久卷中删除数据？无法在 AWS EMR 中使用 Pyspark 或 Python 从 mongoDB 读取数据 Postgresql k8s上的数据无法持久化

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM