Spark Structured Streaming 使用 python 和 Kafka 给出错误

Question

尝试为 kafka 启动 readStream 时出现以下错误，我的 Kafka 已启动并正在运行，我对其进行了多次测试以确保它正在处理。 Kafka 主题也被创建。

'''

kafka_df = spark.readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("subscribe", "mytopic") \
        .option("startingOffsets", "earliest") \
        .load()

'''

Traceback（最近一次通话最后）：文件“C:/Users//PycharmProjects/SparkStreaming/PySparkKafkaStreaming.py”，第 18 行，在 kafka_df = spark.readStream
文件“C:\Users<username>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\streaming.py”，第 420 行，加载返回 self._df(self._jreader .load()) 文件“C:\Users<username>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\py4j\java_gateway.py”，第 1304 行，调用return_value = get_return_value(File “C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\utils.py”，第 134 行，在 deco raise_from(converted) 文件中“”，行3、在raise_from pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. 请按照《Structured Streaming + Kafka Integration Guide》部署章节部署应用。

Answer 1

您需要导入 kafka 依赖项来运行它，对于 pyspark。 您可以下载 jar 并放入 spark/jars 目录或在 sparkSession 初始配置中导入依赖项，请遵循这个kafka-structured streaming docs

希望对你有帮助，有什么可以问我的，谢谢！

Spark Structured Streaming 使用 python 和 Kafka 给出错误

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-12-28 15:21:37

Spark Structured Streaming 使用 python 和 Kafka 给出错误

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-12-28 15:21:37

解决方案1
1 已采纳 2020-12-28 15:21:37