cost 142 ms
distcp - 将数据从cloudera hdfs复制到云存储 - distcp - copy data from cloudera hdfs to cloud storage

我正在尝试在 hdfs 和我的 gcp 云存储之间复制数据。 这不是一次性数据副本。 第一次复制后,我只想复制新文件,更新文件。 如果文件在本地被删除,它也应该从云存储中删除。 但是,我意识到当目标是云时,基于快照差异的副本不起作用。 甚至可以进行这种同步吗? -update 标志似乎不适用于云存 ...

Hadoop distcp:使用了哪些端口? - Hadoop distcp: what ports are used?

如果我想在本地 hadoop 集群上使用 distCp,这样它就可以将数据“推送”到外部云存储,为了利用这个工具,必须考虑哪些防火墙? 数据的实际传输发生在哪些端口上? 是通过 SSH 和/或端口 8020 吗? 我需要确保为源到目标提供网络连接,但赋予它的权限最少。 (即,只打开绝对需要的端口) ...

如何在特定日期后获取所有 hive 文件以进行 s3 上传(python) - How to grab all hive files after a certain date for s3 upload (python)

我正在编写一个程序,每天将来自特定数据库的所有 hive 表上传到 s3。 然而,这个数据库包含许多年前的记录,对于完整的副本/distcp 来说太大了。 我想在 HDFS 中搜索包含数据库的整个目录,并且只获取 last_modified_date 在指定(输入)日期之后的文件。 然后我会将这些 ...

HDFS:当一些数据节点空间不足但仍有足够空间的节点时,纱线导出会终止 - HDFS: yarn export kills when some datanodes run out of space but there are still nodes with plenty of space

我们有 2 个 Hadoop 集群。 我们希望将 Hbase 快照从一个集群导出到另一个集群。 目标集群由 3 个 128TB 的数据节点和 5 个 28TB 的数据节点组成。 一切顺利,直到 5 个最小的数据节点达到占用限制。 在那一刻,在另一个集群中启动的 yarn 任务开始抱怨以下消息: 最后 ...

将数据从一个 s3 存储桶快速复制到不同帐户的另一个 s3 存储桶,只需使用两者的 access_id、secret_access_key 凭据 - Copying data from one s3 bucket to another s3 bucket of different account in fast manner, just using access_id, secret_access_key cred of both

我有两个 aws 存储桶的 access_key、access_id 属于不同的帐户。 我必须将数据从一个位置复制到另一个位置,有没有办法更快地做到这一点。 我已经尝试过基于 map-reduced 的 distcp,它不能提供令人满意的性能。 ...

带有 mapr 客户端的节点是否需要访问我想用 distcp 复制的文件? - Does node with mapr client need to have an access to the files I want to copy with distcp?

情况: 节点 0:安装了 mapr 客户端,不是集群的一部分,没有安装外部资源节点 1 到 10:安装了 mapr NodeManager 的 mapr 集群节点。 每个节点都在 /mnt/resource/ 下挂载了外部资源 如果我在 1 到 10 的任何节点上执行此代码 - 它有效: hadoo ...

2020-11-24 13:32:37   1   48    mapr / distcp  
Hadoop distcp 从本地复制到 gcp 的奇怪行为 - Hadoop distcp copy from on prem to gcp strange behavior

当我使用 distcp 命令作为 如果文件夹 c 已经在 gcp 上,那么它会将 d(及其子文件夹)从 HDFS 复制到 c 内的 gcp 但如果 c 文件夹不在 gcp 上,那么它会在 gcp 上创建 c 文件夹并复制 d 的子文件夹(但不是 d 它自己) 在 gcp 的 c 文件夹内。 因 ...

JSON 聚合使用 s3-dist-cp 用于 Spark 应用程序消费 - JSON aggregation using s3-dist-cp for Spark application consumption

我在 AWS EMR 上运行的 spark 应用程序从存储在 S3 中的 JSON 数组加载数据。 然后通过 Spark 引擎处理从中创建的 Dataframe。 我的源 JSON 数据是多个 S3 对象的形式。 我需要将它们压缩成一个 JSON 数组,以减少从我的 Spark 应用程序中读取的 S ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM