簡體   English   中英

如何在EMR上重命名Hive的輸出文件?

[英]How to rename output file(s) of Hive on EMR?

Hive在EMR上的輸出是一個名為000000_0的文件(如果存在多個reducer,則該數字可能不同)。

如何使該文件的名稱不同? 我看到兩個選擇:

1)讓Hive改寫它

2)寫入文件后,在S3中重命名文件。 這可能是個問題:據我了解,S3並沒有真正的“重命名”。 您必須將其復制,然后刪除原始文件。 例如,當處理大小為1TB的文件時,這可能會導致性能問題或增加使用成本嗎?

AWS Command Line Interface (CLI)有一個方便的mv命令,您可以將其添加到腳本中:

aws s3 mv s3://my-bucket/000000_0 s3://my-bucket/data1

或者,您可以通過Amazon S3 COPY API調用以編程方式進行操作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM