簡體   English   中英

如何將 Apache Crunch 的 output 寫入 Amazon S3 存儲桶

[英]How to write output of Apache Crunch to Amazon S3 bucket

有沒有一種方法可以將我們的 Apache Crunch output 寫入 S3 存儲桶。 在 crunch pipeline write 中有一個方法,它以 Target 作為參數。 有沒有辦法將 S3 添加為目標來編寫 crunch 方法。

您不能只在 PCollection 上使用 write 方法並將其提供給您的 S3 位置嗎?

PCollection<String> items = ...;
items.write(To.avroFile("s3://bucket/prefix");
pipeline.done();

這基本上就是我們的做法,但是我們在 EMR 中運行。 為了從我們的本地集群遷移數據,我們使用 Hadoop dist-cp 命令。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM