[英]How to register custom Spark structured streaming source
我需要通過擴展FileStreamSource創建一個自定義流媒體源。 這個想法是重寫提交,以便將處理的文件(在這種情況下為S3對象)重命名為具有特定的前綴。 但是,我不知道如何使用此自定義源。 顯然,我不想編譯Spark-該應用程序將在Amazon EMR集群上運行。
在項目中創建自定義源之后,您需要以DataStreamReader
的format
注冊它:
val input = spark
.readStream
.format("path.to.MyCustomFileStreamSource")
.load
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.