[英]How to write output of Apache Crunch to Amazon S3 bucket
有沒有一種方法可以將我們的 Apache Crunch output 寫入 S3 存儲桶。 在 crunch pipeline write 中有一個方法,它以 Target 作為參數。 有沒有辦法將 S3 添加為目標來編寫 crunch 方法。
您不能只在 PCollection 上使用 write 方法並將其提供給您的 S3 位置嗎?
PCollection<String> items = ...;
items.write(To.avroFile("s3://bucket/prefix");
pipeline.done();
這基本上就是我們的做法,但是我們在 EMR 中運行。 為了從我們的本地集群遷移數據,我們使用 Hadoop dist-cp 命令。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.