繁体   English   中英

如何在EMR上重命名Hive的输出文件?

[英]How to rename output file(s) of Hive on EMR?

Hive在EMR上的输出是一个名为000000_0的文件(如果存在多个reducer,则该数字可能不同)。

如何使该文件的名称不同? 我看到两个选择:

1)让Hive改写它

2)写入文件后,在S3中重命名文件。 这可能是个问题:据我了解,S3并没有真正的“重命名”。 您必须将其复制,然后删除原始文件。 例如,当处理大小为1TB的文件时,这可能会导致性能问题或增加使用成本吗?

AWS Command Line Interface (CLI)有一个方便的mv命令,您可以将其添加到脚本中:

aws s3 mv s3://my-bucket/000000_0 s3://my-bucket/data1

或者,您可以通过Amazon S3 COPY API调用以编程方式进行操作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM