火花流數據到S3

Question

我正在S3中構建數據湖。 因此，我想將原始數據流存儲到s3中，下面是我的代碼段，其中我嘗試使用本地存儲。

val tweets = TwitterUtils.createStream(ssc, None)
val engtweets = tweets.filter(status => status.getLang() == "en").map(x => x.getText())
  import sql.implicits._
engtweets.foreachRDD { rdd =>
    val df = rdd.toDF()
    df.write.format("json").save("../Ramesh")
 }

我想將原始數據（整個JSON對象）存儲在s3中。

Answer 1

只需在core-site.xml中設置訪問密鑰和秘密密鑰，如下所示：

<property>
    <name>fs.s3a.access.key</name>
    <value>...</value>
</property>
<property>
    <name>fs.s3a.secret.key</name>
    <value>...</value>
</property>

完成此操作后，您應該可以使用s3協議（例如：s3a：///）寫入s3。

希望這可以幫助！

Answer 2

您可以簡單地使用路徑前綴為as的saveAsTextFile方法

s3a://<file path>

必要時，無論有無證書，您的Amazon s3均已正確設置。

https://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_s3.html

火花流數據到S3

問題描述

2 個解決方案

解決方案1
1 2017-10-09 17:31:43

解決方案2
0 2017-10-08 08:08:42

火花流數據到S3

問題描述

2 個解決方案

解決方案1 1 2017-10-09 17:31:43

解決方案2 0 2017-10-08 08:08:42

解決方案1
1 2017-10-09 17:31:43

解決方案2
0 2017-10-08 08:08:42