如何使用 pyspark 從 Kafka 獲取並打印一行？必須使用 writeStream.start() 執行帶有流源的查詢

Question

我正在嘗試從Kafka讀取一些數據以查看其中的內容。

我寫

builder = SparkSession.builder\
   .appName("PythonTest01")

spark = builder.getOrCreate()

# Subscribe to 1 topic
df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", config["kafka"]["bootstrap.servers"]) \
  .option("subscribe", dataFlowTopic) \
  .load()

# df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")

df.printSchema()

df = df.first()

query = df \
    .writeStream \
    .outputMode('complete') \
    .format('console') \
    .start()

query.awaitTermination()

不幸的是，它發誓

pyspark.sql.utils.AnalysisException: Queries with streaming sources must be executed with writeStream.start();

它想要什么以及如何滿足它？

如果我刪除first()它發誓

Complete output mode not supported when there are no streaming aggregations on streaming DataFrames/Datasets;

我要寫

#df = df.first()

query = df \
    .writeStream \
    .outputMode('append') \
    .format('console') \
    .start()

query.awaitTermination()

這不是打印第一行，而是最后一行，而不是終止。

Answer 1

並且不終止。

這是一種蒸汽； 這並不意味着終止

打印不是第一行，而是最后一行

請參閱startingOffsets選項。 默認是latest的

https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html#reading-data-from-kafka

如何使用 pyspark 從 Kafka 獲取並打印一行？必須使用 writeStream.start() 執行帶有流源的查詢

問題描述

1 個解決方案

解決方案1
1 2021-04-06 13:56:54

如何使用 pyspark 從 Kafka 獲取並打印一行？ 必須使用 writeStream.start() 執行帶有流源的查詢

問題描述

1 個解決方案

解決方案1 1 2021-04-06 13:56:54

如何使用 pyspark 從 Kafka 獲取並打印一行？必須使用 writeStream.start() 執行帶有流源的查詢

解決方案1
1 2021-04-06 13:56:54