标签[distcp] - 堆栈内存溢出

distcp 一个表到另一个具有不同名称的表 - distcp one table to another table with different name

注：表为hive表名，即HDFS目录。我有两台服务器，C1 和 C2。 C1 有一个具有顺序格式的表 item.name。 C2 有一个 orc 格式的表 item.name，其数据与 C1 相同。每当我需要使用 distcp 将表 item.name 中的数据从 C1 复制到 C2 时。 ...

distcp - 将数据从cloudera hdfs复制到云存储 - distcp - copy data from cloudera hdfs to cloud storage

我正在尝试在 hdfs 和我的 gcp 云存储之间复制数据。这不是一次性数据副本。第一次复制后，我只想复制新文件，更新文件。如果文件在本地被删除，它也应该从云存储中删除。但是，我意识到当目标是云时，基于快照差异的副本不起作用。甚至可以进行这种同步吗？ -update 标志似乎不适用于云存 ...

Hadoop distcp：使用了哪些端口？ - Hadoop distcp: what ports are used?

如果我想在本地 hadoop 集群上使用 distCp，这样它就可以将数据“推送”到外部云存储，为了利用这个工具，必须考虑哪些防火墙？数据的实际传输发生在哪些端口上？是通过 SSH 和/或端口 8020 吗？我需要确保为源到目标提供网络连接，但赋予它的权限最少。（即，只打开绝对需要的端口） ...

DistCP - 即使是简单的副本也会导致 CRC 异常 - DistCP - Even simple copies result in CRC Exceptions

我在使用 distcp 复制文件时遇到了问题——即使在集群中执行简单的复制（即hadoop distcp -pbugctrx /foo/bar /foo/baz ），每个复制都会失败并出现 IO 异常（校验和不匹配）。如果强制使用-skipcrccheck完成复制，我可以看到校验和不同（ hdf ...

如何在特定日期后获取所有 hive 文件以进行 s3 上传（python） - How to grab all hive files after a certain date for s3 upload (python)

我正在编写一个程序，每天将来自特定数据库的所有 hive 表上传到 s3。然而，这个数据库包含许多年前的记录，对于完整的副本/distcp 来说太大了。我想在 HDFS 中搜索包含数据库的整个目录，并且只获取 last_modified_date 在指定（输入）日期之后的文件。然后我会将这些 ...

HDFS：当一些数据节点空间不足但仍有足够空间的节点时，纱线导出会终止 - HDFS: yarn export kills when some datanodes run out of space but there are still nodes with plenty of space

我们有 2 个 Hadoop 集群。我们希望将 Hbase 快照从一个集群导出到另一个集群。目标集群由 3 个 128TB 的数据节点和 5 个 28TB 的数据节点组成。一切顺利，直到 5 个最小的数据节点达到占用限制。在那一刻，在另一个集群中启动的 yarn 任务开始抱怨以下消息：最后 ...

是否可以使用 distcp 直接写入最终文件？ - Is it possible to write directly to final file with distcp?

我正在尝试使用distcp 。 distcp写入临时文件，然后将其重命名为正确的文件名。但用户不允许更新/删除。所以我的文件大小合适，名称错误。在 s3 上并收到错误：是否可以省略重命名并直接写入最终文件名？ ...

将数据从一个 s3 存储桶快速复制到不同帐户的另一个 s3 存储桶，只需使用两者的 access_id、secret_access_key 凭据 - Copying data from one s3 bucket to another s3 bucket of different account in fast manner, just using access_id, secret_access_key cred of both

我有两个 aws 存储桶的 access_key、access_id 属于不同的帐户。我必须将数据从一个位置复制到另一个位置，有没有办法更快地做到这一点。我已经尝试过基于 map-reduced 的 distcp，它不能提供令人满意的性能。 ...

带有 mapr 客户端的节点是否需要访问我想用 distcp 复制的文件？ - Does node with mapr client need to have an access to the files I want to copy with distcp?

情况：节点 0：安装了 mapr 客户端，不是集群的一部分，没有安装外部资源节点 1 到 10：安装了 mapr NodeManager 的 mapr 集群节点。每个节点都在 /mnt/resource/ 下挂载了外部资源如果我在 1 到 10 的任何节点上执行此代码 - 它有效： hadoo ...

Hadoop distcp 从本地复制到 gcp 的奇怪行为 - Hadoop distcp copy from on prem to gcp strange behavior

当我使用 distcp 命令作为如果文件夹 c 已经在 gcp 上，那么它会将 d（及其子文件夹）从 HDFS 复制到 c 内的 gcp 但如果 c 文件夹不在 gcp 上，那么它会在 gcp 上创建 c 文件夹并复制 d 的子文件夹（但不是 d 它自己) 在 gcp 的 c 文件夹内。因 ...

hdfs distcp 无法从 hdfs 复制到 s3 - hdfs distcp failing to copy from hdfs to s3

我们在内部暂存节点中配置了一个雪球，端点为http://10.91.16.213:8080 。一切正常，我什至可以通过 s3 cli 命令列出这个雪球中的文件现在我正在尝试使用 hadoop distcp 命令将数据从 hdfs 复制到 s3 snowball。首先，我测试了 hadoop ...

DistCP 获取块 MD5 失败 - DistCP Fail to get block MD5

源集群中有一个隐藏文件： .part-1-1458.inprogress.xxxxxxxxx 实际上，这个文件是 Flink 生成的，文件大小为 0。当我们使用 DistCp 复制目录时，遇到异常Caused by: java.io.IOException: Fail to get block M ...

客户端无法通过以下方式进行身份验证：[TOKEN, KERBEROS) - Client cannot authenticate via: [TOKEN, KERBEROS)

从我的 spark 应用程序中，我试图从distcp到 s3。我的应用程序对数据进行了一些处理并将数据写入 hdfs 并且我试图通过distcp推送到 s3 的数据。我面临以下错误。任何指针都会有所帮助。 ...

从 HDFS 加载到 S3 时如何解压缩文件？ - How to uncompress file while loading from HDFS to S3?

我有 HDFS 中lzo格式的HDFS文件我想将这些文件加载到 s3 中，然后加载到雪花中，因为雪花在加载时不为 Z628CB5675FF524F3E719B7AA2E88FE3F 提供 lzo 压缩，这些文件需要在加载时将这些文件转换为格式s3。 ...

distcp 本地文件到 hadoop - distcp local file to hadoop

我在本地文件系统 /tmp/dist_testfle 上有 1 Gb 文件我可以复制它： hadoop fs -put file:///tmp/dist_testfile maprfs:/// 但不能distcp它。命令hadoop distcp file:///tmp/dist_testfil ...

使用 distcp 复制到 Azure ADLS Gen1 失败并出现 403 - Using distcp to copy to Azure ADLS Gen1 fails with 403

我正在尝试复制到 Azure Data Lake Storage (ADLS) Gen1，同时使用 OAuth2 进行身份验证。我收到以下错误： com.microsoft.azure.datalake.store.ADLException：获取文件/myContainer操作GETFILES ...

-Dmapred.job.name 不适用于 s3-dist-cp 命令 - -Dmapred.job.name does not work with s3-dist-cp command

我想使用 s3-dist-cp 将一些文件从 emr-hdfs 复制到 s3 存储桶，我已经从“EMR 主节点”尝试了这个 cmd：该命令执行良好，但是当我在纱线资源管理器 UI 中检查作业名称时，它显示如下： S3DistCp hdfs:///user/hadoop/abc **->** ...

JSON 聚合使用 s3-dist-cp 用于 Spark 应用程序消费 - JSON aggregation using s3-dist-cp for Spark application consumption

我在 AWS EMR 上运行的 spark 应用程序从存储在 S3 中的 JSON 数组加载数据。然后通过 Spark 引擎处理从中创建的 Dataframe。我的源 JSON 数据是多个 S3 对象的形式。我需要将它们压缩成一个 JSON 数组，以减少从我的 Spark 应用程序中读取的 S ...

如何更改 hadoop distcp 暂存目录 - How to change hadoop distcp staging directory

当我运行命令时我得到了一个 Java IOException：但是，我不想将“/some/file/path”用作临时暂存目录，如何将其更改为我想要的另一个目录？ ...

在 java distcp 中使用 -update 选项 - Using -update option in java distcp

我的目标是在 java 中使用 java distcp api。使用命令行，我可以执行 distcp ：在 Java 中，我在使用 -skipcrccheck 和 -update 选项时遇到了一些麻烦。我得到这个异常：当您查看代码时，顺序非常重要，因此我切换了两个选项：我明 ...