java.lang.IllegalArgumentException：未指定'path'// Spark使用者問題

Question

我正在嘗試創建SparkConsumer，以便在這種情況下可以通過Spark Streaming將CSV文件發送到Kafka。 但是我有一個錯誤，未指定“路徑”。 請參閱下面的代碼

我的代碼如下：

import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.execution.streaming.FileStreamSource.Timestamp
import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.sql.functions.from_json
import org.apache.spark.sql.streaming.OutputMode

object sparkConsumer extends App {

  val conf = new SparkConf().setMaster("local").setAppName("Name")
  val sc = new SparkContext(conf)

  val rootLogger = Logger.getRootLogger()
  rootLogger.setLevel(Level.ERROR)

  val spark = SparkSession
    .builder()
    .appName("Spark-Kafka-Integration")
    .master("local")
    .getOrCreate()

  val schema = StructType(Array(
    StructField("InvoiceNo", StringType, nullable = true),
    StructField("StockCode", StringType, nullable = true),
    StructField("Description", StringType, nullable = true),
    StructField("Quantity", StringType, nullable = true)
  ))

  val streamingDataFrame = spark.readStream.schema(schema).csv("C:/Users/me/Desktop/Tasks/Tasks1/test.csv")

  streamingDataFrame.selectExpr("CAST(InvoiceNo AS STRING) AS key", "to_json(struct(*)) AS value").
    writeStream
    .format("csv")
    .option("topic", "topic_test")
    .option("kafka.bootstrap.servers", "localhost:9092")
    .option("checkpointLocation", "C:/Users/me/IdeaProjects/SparkStreaming/checkpointLocation/")
    .start()

  import spark.implicits._
  val df = spark
    .readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", "localhost:9092")
    .option("subscribe", "topic_test")
    .load()

  val df1 = df.selectExpr("CAST(value AS STRING)", "CAST(timestamp AS TIMESTAMP)").as[(String, Timestamp)]
    .select(from_json($"value", schema).as("data"), $"timestamp")
    .select("data.*", "timestamp")

  df1.writeStream
    .format("console")
    .option("truncate","false")
    .outputMode(OutputMode.Append)
    .start()
    .awaitTermination()

}

我變成以下錯誤：

Exception in thread "main" java.lang.IllegalArgumentException: 'path' is not specified

有人知道我在想什么嗎？

Answer 1

在這部分代碼看來，這可能是一個問題：

  streamingDataFrame.selectExpr("CAST(InvoiceNo AS STRING) AS key", "to_json(struct(*)) AS value").
    writeStream
    .format("csv")
    .option("topic", "topic_test")
    .option("kafka.bootstrap.servers", "localhost:9092")
    .option("checkpointLocation", "C:/Users/me/IdeaProjects/SparkStreaming/checkpointLocation/")
    .start()

因為您使用的是“ csv”格式，但未設置所需的文件位置。 相反，您可以配置Kafka屬性以將kafka主題用作接收器。 因此，如果將格式更改為“ kafka”，則應該可以使用。

您可以嘗試使用csv作為源的另一個問題是您的路徑應該是目錄而不是文件。 就您而言，如果您創建目錄並移動csv文件，它將起作用。

僅出於測試目的，創建一個名為C：/Users/me/Desktop/Tasks/Tasks1/test.csv的目錄，並創建一個內部名為part-0000.csv的文件。 然后將您的csv內容包含在這個新文件中，然后再次開始該過程。

java.lang.IllegalArgumentException：未指定'path'// Spark使用者問題

問題描述

1 個解決方案

解決方案1
1 已采納 2019-01-08 10:24:54

java.lang.IllegalArgumentException：未指定&#39;path&#39;// Spark使用者問題

問題描述

1 個解決方案

解決方案1 1 已采納 2019-01-08 10:24:54

java.lang.IllegalArgumentException：未指定'path'// Spark使用者問題

解決方案1
1 已采納 2019-01-08 10:24:54