[英]How to rename output file(s) of Hive on EMR?
Hive在EMR上的輸出是一個名為000000_0的文件(如果存在多個reducer,則該數字可能不同)。
如何使該文件的名稱不同? 我看到兩個選擇:
1)讓Hive改寫它
2)寫入文件后,在S3中重命名文件。 這可能是個問題:據我了解,S3並沒有真正的“重命名”。 您必須將其復制,然后刪除原始文件。 例如,當處理大小為1TB的文件時,這可能會導致性能問題或增加使用成本嗎?
AWS Command Line Interface (CLI)有一個方便的mv
命令,您可以將其添加到腳本中:
aws s3 mv s3://my-bucket/000000_0 s3://my-bucket/data1
或者,您可以通過Amazon S3 COPY
API調用以編程方式進行操作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.