我有一个以下面格式显示的 drataframe,其中记录为 json 数据(字符串格式)从 kafka 主题读取 我只需要将 dataframe 中存在的 json 记录写入 S3。 有什么办法可以解析记录并将 json 转换为 dataframe 并写入 s3? 或提供的任何其他解决方案将有所帮 ...
我有一个以下面格式显示的 drataframe,其中记录为 json 数据(字符串格式)从 kafka 主题读取 我只需要将 dataframe 中存在的 json 记录写入 S3。 有什么办法可以解析记录并将 json 转换为 dataframe 并写入 s3? 或提供的任何其他解决方案将有所帮 ...
当我使用 spark 连接到 kafka 主题并创建 dataframe 然后存储到 Hudi 中时: 我收到以下异常: 将所有kafka数据存储到Hudi表中 ...
我们有Cassandra桌人, Dataframe 是, 在 Spark 中,我们想将 dataframe 保存到表中,其中 dataframe 对同一个主键有多个记录。 Q 1:Cassandra 连接器如何在内部处理行的排序? Q2:我们正在从kafka读取数据并保存到Cassandra ...
我目前正在做一个小项目,我从 kafka 主题中获取 stream 机器数据(JSON 格式)以供进一步分析。 列值中的 JSON 应拆分为多个列及其相应的值。 现在我总是遇到无法在列值中看到所有数据的问题,视图似乎总是被截断。 读取 stream: 结果: Dataframe 和 base64 编 ...
我想要使用 Spark 对流式数据集进行聚类。 我首先尝试使用 Kmeans,但它在调用 fit 方法时抛出运行时异常,表示它不能与流数据一起使用: 然后我尝试使用 StreamingKmeans,但它接缝这个 model 仅适用于 Spark 中的旧流媒体并接受 DStream。 有谁知道这个问题 ...
PySpark SQL 函数参考row_number() function 说返回 window 分区内从 1 开始的序号暗示 function 仅适用于 windows。尝试df.select('*', row_number()) 可以预见地给出一个 例外。 现在, .over()似乎只适用 ...
我有一份由同事组成的火花工作: 1- 从 Delta Lake 读取 static dataFrame 。 2- 从 Delta Lake 读取 dataFrame 的dataFrame 。 3- 加入 stream 和 static。 4-做一个flatMapGroupsWithState ...
我正在尝试使用自定义模式使用火花流从 kafka 主题读取一条 json 消息,当我仅将 Cast 值用作字符串时,我可以看到数据即将到来。 但是当我使用模式时它不起作用。 数据是这样的: 我将架构用作: 我正在使用 function: output 仍然是 null。 ...
假设我们有一个从 X 分区主题读取的应用程序,对数据进行一些过滤,然后使用结构化流查询将其保存到存储中(没有复杂的混洗逻辑,只是一些简单的转换)。 该应用程序是否会受益于动态分配功能,即在数据激增的情况下添加超过 X 个单核执行程序? 我问这个,因为我主要使用 DStreams,其中有一个众所周知 ...
探索 PySpark 结构化流和数据块。 我想编写一个 spark structural streaming 作业来读取 kafka 主题中的所有数据并发布到增量表。 假设我使用的是最新版本并且 kafka 具有以下详细信息。 kafka 主题名称:ABC kafka 经纪人:localhost: ...
由于业务需求,我每天使用 Trigger.Once 方法触发一个 Spark 流作业。StreamingQuery query = processed .writeStream() .outputMode( ...
我有一个 PySpark 流式管道,它从 Kafka 主题读取数据,数据经过各种转换,最后合并到数据块增量表中。 一开始,我们使用合并 function 将数据加载到增量表中,如下所示。 这个传入的 dataframe inc_df 包含所有分区的数据。 我们在表级别执行上述查询。 我在下图中给出 ...
我正在实施一个 Spark Structured Streaming 作业,我正在使用来自 Kafka 的 JSON 格式的消息。 由于 json 数据是动态的,我没有在from_json function 中使用的架构信息来加载 json 数据以激发 dataframe 下面是我用来从 kafka ...
我有一个 Structured Streaming 作业,它将 Kafka 作为源,将 Delta 作为接收器。 每个批次都将在foreachBatch中处理。 我面临的问题是我需要将此结构化流配置为仅触发一次,但在初始运行中,Kafka 始终不返回任何记录。 这就是我配置结构化流处理的方式: 我尝 ...
假设我在 Databricks 中有一个流式增量表。 有什么方法可以将流式表的快照作为 static 表? 原因是我需要通过以下方式将此流表与 static 表连接起来: “Output”是一个 static 表,“country_information”是流表。 但是,我收到错误: 另外,我无 ...
我正在使用 Spark2.3.0 和 kafka1.0.0.3。 我创建了一个 spark read stream 它运行成功然后 但是当我运行这个 它抛出一个错误: 谁能帮我解决这个问题? 我尝试用更新的库替换 jar 库,但问题仍然存在。 ...
我希望每个人都做得很好。 我有一个很长的问题,因此请耐心等待。 上下文: 所以我有来自 Yugabyte 的 Debezium 连接器的 CDC 有效负载,格式如下: r""" { "payload": { "before": null, "after": { "id": { "value": "M ...
我在集群模式下运行 spark,它给出了错误 我运行了以下命令并验证了该位置是否存在 jks 文件。 我写了下面的代码来连接到 spark 项目中的 kafka。 火花代码: 请建议缺少什么? 如何在 s3 中使用 jks 文件实现相同的目的? ...
我正在尝试使用最大记录数来限制结构化流查询的输入速率。 但是, 文档说仅支持maxFilesPerTrigger或maxBytesPerTrigger 。 是否有任何解决方法可以通过最大记录数实现这一目标? 请指教 ...
我使用水印进行基于 window 的聚合,但每次都会聚合所有数据。 相关代码: 查询开始后,我开始将文件放入目录“data-source”:当前时间为 2022-12-29T10:44:30 结果: 预期结果: 如您所见,甚至还汇总了 2022-12-01 的非常旧的数据即使我等了一段时间说 20 ...