[英]Spark Streaming Data to S3
我正在S3中構建數據湖。 因此,我想將原始數據流存儲到s3中,下面是我的代碼段,其中我嘗試使用本地存儲。
val tweets = TwitterUtils.createStream(ssc, None)
val engtweets = tweets.filter(status => status.getLang() == "en").map(x => x.getText())
import sql.implicits._
engtweets.foreachRDD { rdd =>
val df = rdd.toDF()
df.write.format("json").save("../Ramesh")
}
我想將原始數據(整個JSON對象)存儲在s3中。
只需在core-site.xml中設置訪問密鑰和秘密密鑰,如下所示:
<property>
<name>fs.s3a.access.key</name>
<value>...</value>
</property>
<property>
<name>fs.s3a.secret.key</name>
<value>...</value>
</property>
完成此操作后,您應該可以使用s3協議(例如:s3a:///)寫入s3。
希望這可以幫助!
您可以簡單地使用路徑前綴為as的saveAsTextFile
方法
s3a://<file path>
必要時,無論有無證書,您的Amazon s3均已正確設置。
https://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_s3.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.