[英]spark submit java.lang.IllegalArgumentException: Can not create a Path from an empty string
[英]java.lang.IllegalArgumentException: 'path' is not specified // Spark Consumer Issue
我正在嘗試創建SparkConsumer,以便在這種情況下可以通過Spark Streaming將CSV文件發送到Kafka。 但是我有一個錯誤,未指定“路徑”。 請參閱下面的代碼
我的代碼如下:
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.execution.streaming.FileStreamSource.Timestamp
import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.sql.functions.from_json
import org.apache.spark.sql.streaming.OutputMode
object sparkConsumer extends App {
val conf = new SparkConf().setMaster("local").setAppName("Name")
val sc = new SparkContext(conf)
val rootLogger = Logger.getRootLogger()
rootLogger.setLevel(Level.ERROR)
val spark = SparkSession
.builder()
.appName("Spark-Kafka-Integration")
.master("local")
.getOrCreate()
val schema = StructType(Array(
StructField("InvoiceNo", StringType, nullable = true),
StructField("StockCode", StringType, nullable = true),
StructField("Description", StringType, nullable = true),
StructField("Quantity", StringType, nullable = true)
))
val streamingDataFrame = spark.readStream.schema(schema).csv("C:/Users/me/Desktop/Tasks/Tasks1/test.csv")
streamingDataFrame.selectExpr("CAST(InvoiceNo AS STRING) AS key", "to_json(struct(*)) AS value").
writeStream
.format("csv")
.option("topic", "topic_test")
.option("kafka.bootstrap.servers", "localhost:9092")
.option("checkpointLocation", "C:/Users/me/IdeaProjects/SparkStreaming/checkpointLocation/")
.start()
import spark.implicits._
val df = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "localhost:9092")
.option("subscribe", "topic_test")
.load()
val df1 = df.selectExpr("CAST(value AS STRING)", "CAST(timestamp AS TIMESTAMP)").as[(String, Timestamp)]
.select(from_json($"value", schema).as("data"), $"timestamp")
.select("data.*", "timestamp")
df1.writeStream
.format("console")
.option("truncate","false")
.outputMode(OutputMode.Append)
.start()
.awaitTermination()
}
我變成以下錯誤:
Exception in thread "main" java.lang.IllegalArgumentException: 'path' is not specified
有人知道我在想什么嗎?
在這部分代碼看來,這可能是一個問題:
streamingDataFrame.selectExpr("CAST(InvoiceNo AS STRING) AS key", "to_json(struct(*)) AS value").
writeStream
.format("csv")
.option("topic", "topic_test")
.option("kafka.bootstrap.servers", "localhost:9092")
.option("checkpointLocation", "C:/Users/me/IdeaProjects/SparkStreaming/checkpointLocation/")
.start()
因為您使用的是“ csv”格式,但未設置所需的文件位置。 相反,您可以配置Kafka屬性以將kafka主題用作接收器。 因此,如果將格式更改為“ kafka”,則應該可以使用。
您可以嘗試使用csv作為源的另一個問題是您的路徑應該是目錄而不是文件。 就您而言,如果您創建目錄並移動csv文件,它將起作用。
僅出於測試目的,創建一個名為C:/Users/me/Desktop/Tasks/Tasks1/test.csv的目錄,並創建一個內部名為part-0000.csv的文件。 然后將您的csv內容包含在這個新文件中,然后再次開始該過程。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.