标签[spark-structured-streaming]

将 json 记录从 dataframe 列写入 Spark Streaming 中的 S3 - writing json record from dataframe column to S3 in spark streaming

我有一个以下面格式显示的 drataframe，其中记录为 json 数据（字符串格式）从 kafka 主题读取我只需要将 dataframe 中存在的 json 记录写入 S3。有什么办法可以解析记录并将 json 转换为 dataframe 并写入 s3？或提供的任何其他解决方案将有所帮 ...

Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey: - Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:

当我使用 spark 连接到 kafka 主题并创建 dataframe 然后存储到 Hudi 中时：我收到以下异常：将所有kafka数据存储到Hudi表中 ...

我们有Cassandra桌人， Dataframe 是，在 Spark 中，我们想将 dataframe 保存到表中，其中 dataframe 对同一个主键有多个记录。 Q 1：Cassandra 连接器如何在内部处理行的排序？ Q2：我们正在从kafka读取数据并保存到Cassandra ...

列值总是被截断 - column values are always truncated

我目前正在做一个小项目，我从 kafka 主题中获取 stream 机器数据（JSON 格式）以供进一步分析。列值中的 JSON 应拆分为多个列及其相应的值。现在我总是遇到无法在列值中看到所有数据的问题，视图似乎总是被截断。读取 stream：结果： Dataframe 和 base64 编 ...

将 Spark 结构化流与 StreamingKMeans 结合使用 - Use Spark structured streaming with StreamingKMeans

我想要使用 Spark 对流式数据集进行聚类。我首先尝试使用 Kmeans，但它在调用 fit 方法时抛出运行时异常，表示它不能与流数据一起使用：然后我尝试使用 StreamingKmeans，但它接缝这个 model 仅适用于 Spark 中的旧流媒体并接受 DStream。有谁知道这个问题 ...

我们可以在 PySpark 结构化流中使用 row_number() 吗？ - Can we use row_number() in PySpark Structured Streaming?

PySpark SQL 函数参考row_number() function 说返回 window 分区内从 1 开始的序号暗示 function 仅适用于 windows。尝试df.select('*', row_number()) 可以预见地给出一个例外。现在， .over()似乎只适用 ...

spark flatMapGroupsWithState 随机丢失事件 - spark flatMapGroupsWithState random lost events

我有一份由同事组成的火花工作： 1- 从 Delta Lake 读取 static dataFrame 。 2- 从 Delta Lake 读取 dataFrame 的dataFrame 。 3- 加入 stream 和 static。 4-做一个flatMapGroupsWithState ...

使用 pyspark 从 Kafka Topic 读取 Json 消息 - Read Json message from Kafka Topic using pyspark

我正在尝试使用自定义模式使用火花流从 kafka 主题读取一条 json 消息，当我仅将 Cast 值用作字符串时，我可以看到数据即将到来。但是当我使用模式时它不起作用。数据是这样的：我将架构用作：我正在使用 function： output 仍然是 null。 ...

如果核心数量多于 Kafka 分区数量，Spark 结构化流式传输是否会受益于动态分配？ - Will Spark structured streaming benefit from dynamic allocation if number of cores more than number of Kafka partitions?

假设我们有一个从 X 分区主题读取的应用程序，对数据进行一些过滤，然后使用结构化流查询将其保存到存储中（没有复杂的混洗逻辑，只是一些简单的转换）。该应用程序是否会受益于动态分配功能，即在数据激增的情况下添加超过 X 个单核执行程序？我问这个，因为我主要使用 DStreams，其中有一个众所周知 ...

PySpark 结构化流式读取Kafka到delta表 - PySpark structured streaming read Kafka to delta table

探索 PySpark 结构化流和数据块。我想编写一个 spark structural streaming 作业来读取 kafka 主题中的所有数据并发布到增量表。假设我使用的是最新版本并且 kafka 具有以下详细信息。 kafka 主题名称：ABC kafka 经纪人：localhost: ...

如何在流作业运行之间共享 state？ - How to share state between runs of streaming jobs?

由于业务需求，我每天使用 Trigger.Once 方法触发一个 Spark 流作业。StreamingQuery query = processed .writeStream() .outputMode( ...

如何使用 PySpark/Spark 流将数据并行合并到数据块增量表的分区中？ - How to parallelly merge data into partitions of databricks delta table using PySpark/Spark streaming?

我有一个 PySpark 流式管道，它从 Kafka 主题读取数据，数据经过各种转换，最后合并到数据块增量表中。一开始，我们使用合并 function 将数据加载到增量表中，如下所示。这个传入的 dataframe inc_df 包含所有分区的数据。我们在表级别执行上述查询。我在下图中给出 ...

如何在spark streaming中解析动态的json格式的kafka消息 - How to parse dynamic json formatted kafka message in spark streaming

我正在实施一个 Spark Structured Streaming 作业，我正在使用来自 Kafka 的 JSON 格式的消息。由于 json 数据是动态的，我没有在from_json function 中使用的架构信息来加载 json 数据以激发 dataframe 下面是我用来从 kafka ...

Kafka 作为读取流源总是在第一次迭代中返回 0 条消息 - Kafka as readstream source always returns 0 messages in the first iteration

我有一个 Structured Streaming 作业，它将 Kafka 作为源，将 Delta 作为接收器。每个批次都将在foreachBatch中处理。我面临的问题是我需要将此结构化流配置为仅触发一次，但在初始运行中，Kafka 始终不返回任何记录。这就是我配置结构化流处理的方式：我尝 ...

如何获取流增量表的快照作为 Databricks 中的 static 表？ - How to get a snapshot of a streaming delta table as a static table in Databricks?

假设我在 Databricks 中有一个流式增量表。有什么方法可以将流式表的快照作为 static 表？原因是我需要通过以下方式将此流表与 static 表连接起来： “Output”是一个 static 表，“country_information”是流表。但是，我收到错误：另外，我无 ...

java.lang.ClassNotFoundException: org.apache.spark.sql.kafka010.KafkaSourceRDDPartition - java.lang.ClassNotFoundException: org.apache.spark.sql.kafka010.KafkaSourceRDDPartition

我正在使用 Spark2.3.0 和 kafka1.0.0.3。我创建了一个 spark read stream 它运行成功然后但是当我运行这个它抛出一个错误：谁能帮我解决这个问题？我尝试用更新的库替换 jar 库，但问题仍然存在。 ...

Delta Lake 表按列并行更新 - Delta Lake table update column-wise in parallel

我希望每个人都做得很好。我有一个很长的问题，因此请耐心等待。上下文：所以我有来自 Yugabyte 的 Debezium 连接器的 CDC 有效负载，格式如下： r""" { "payload": { "before": null, "after": { "id": { "value": "M ...

在 spark 中从 hdfs（也尝试使用 s3）提取 kafka jks 证书时出错 - Error while pulling kafka jks certificates from hdfs (trying with s3 as well) in spark

我在集群模式下运行 spark，它给出了错误我运行了以下命令并验证了该位置是否存在 jks 文件。我写了下面的代码来连接到 spark 项目中的 kafka。火花代码：请建议缺少什么？如何在 s3 中使用 jks 文件实现相同的目的？ ...

如何使用 Databricks 中结构化流的最大记录数来限制输入速率？ - How do I limit input rate using max record count on Structured Streaming in Databricks?

我正在尝试使用最大记录数来限制结构化流查询的输入速率。但是，文档说仅支持maxFilesPerTrigger或maxBytesPerTrigger 。是否有任何解决方法可以通过最大记录数实现这一目标？请指教 ...

Spark Structured 流水印没有效果 - Spark Structured streaming watermark has no effect

我使用水印进行基于 window 的聚合，但每次都会聚合所有数据。相关代码：查询开始后，我开始将文件放入目录“data-source”：当前时间为 2022-12-29T10:44:30 结果：预期结果：如您所见，甚至还汇总了 2022-12-01 的非常旧的数据即使我等了一段时间说 20 ...