[英]Spark Streaming from a folder in AWS s3 - PySpark
I have a folder "input" in aws 3. I want to stream the new files created in that folder. 我在aws 3中有一个文件夹“ input”。我想流式传输在该文件夹中创建的新文件。 I am using this code:
我正在使用此代码:
ssc = StreamingContext(sc, 10)
rdd = ssc.textFileStream("s3n://dynamodbstream607/input/*")
But it throws an error saying that input/* doesnot exist. 但是它抛出一个错误,指出input / *不存在。 How do i get spark to stream from a folder in S3
我如何从S3中的文件夹获取流媒体火花
根据此PR ,它将在2.0中可用。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.