[英]How to rename output file(s) of Hive on EMR?
Hive在EMR上的输出是一个名为000000_0的文件(如果存在多个reducer,则该数字可能不同)。
如何使该文件的名称不同? 我看到两个选择:
1)让Hive改写它
2)写入文件后,在S3中重命名文件。 这可能是个问题:据我了解,S3并没有真正的“重命名”。 您必须将其复制,然后删除原始文件。 例如,当处理大小为1TB的文件时,这可能会导致性能问题或增加使用成本吗?
AWS Command Line Interface (CLI)有一个方便的mv
命令,您可以将其添加到脚本中:
aws s3 mv s3://my-bucket/000000_0 s3://my-bucket/data1
或者,您可以通过Amazon S3 COPY
API调用以编程方式进行操作。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.