简体   繁体   English

从AWS s3中的文件夹发送Spark流-PySpark

[英]Spark Streaming from a folder in AWS s3 - PySpark

I have a folder "input" in aws 3. I want to stream the new files created in that folder. 我在aws 3中有一个文件夹“ input”。我想流式传输在该文件夹中创建的新文件。 I am using this code: 我正在使用此代码:

ssc = StreamingContext(sc, 10)
rdd = ssc.textFileStream("s3n://dynamodbstream607/input/*")

But it throws an error saying that input/* doesnot exist. 但是它抛出一个错误,指出input / *不存在。 How do i get spark to stream from a folder in S3 我如何从S3中的文件夹获取流媒体火花

根据此PR ,它将在2.0中可用。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM