簡體   English   中英

火花流數據到S3

[英]Spark Streaming Data to S3

我正在S3中構建數據湖。 因此,我想將原始數據流存儲到s3中,下面是我的代碼段,其中我嘗試使用本地存儲。

val tweets = TwitterUtils.createStream(ssc, None)
val engtweets = tweets.filter(status => status.getLang() == "en").map(x => x.getText())
  import sql.implicits._
engtweets.foreachRDD { rdd =>
    val df = rdd.toDF()
    df.write.format("json").save("../Ramesh")
 }

我想將原始數據(整個JSON對象)存儲在s3中。

只需在core-site.xml中設置訪問密鑰和秘密密鑰,如下所示:

<property>
    <name>fs.s3a.access.key</name>
    <value>...</value>
</property>
<property>
    <name>fs.s3a.secret.key</name>
    <value>...</value>
</property>

完成此操作后,您應該可以使用s3協議(例如:s3a:///)寫入s3。

希望這可以幫助!

您可以簡單地使用路徑前綴為as的saveAsTextFile方法

s3a://<file path>

必要時,無論有無證書,您的Amazon s3均已正確設置。

https://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_s3.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM