我正在尝试在 Spark 结构化流中加入拖流数据。 数据结构如下: 表:持卡人 卡号分配时间受让人 1个 01/01/2023 01:00:00 用户 1 1个 01/01/2023 01:00:05 用户 2 1个 01/01/2023 01:00:10 用户 3 表:CardTransact ...
我正在尝试在 Spark 结构化流中加入拖流数据。 数据结构如下: 表:持卡人 卡号分配时间受让人 1个 01/01/2023 01:00:00 用户 1 1个 01/01/2023 01:00:05 用户 2 1个 01/01/2023 01:00:10 用户 3 表:CardTransact ...
我正在尝试使用结构化流从 kafka 读取数据,但该程序似乎没有得到任何数据。 此代码不会将任何记录打印到控制台: 但是,如果我将其修改为不使用这样的流式传输: 它可以毫无问题地打印前 10 行数据。 关于可能导致此问题的任何线索? ...
我正在尝试将 kafka 主题放入 spark dataframe 中,因此代码如下: 我正在尝试使用 spark-submit 执行代码: spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.1 dev_e ...
假设我们有一个从 X 分区主题读取的应用程序,对数据进行一些过滤,然后使用结构化流查询将其保存到存储中(没有复杂的混洗逻辑,只是一些简单的转换)。 该应用程序是否会受益于动态分配功能,即在数据激增的情况下添加超过 X 个单核执行程序? 我问这个,因为我主要使用 DStreams,其中有一个众所周知 ...
我在数据块中使用 AutoLoader。 但是,当我将 stream 保存为增量表时,生成的表不是增量表。 为什么生成的表不是增量格式? 如果我尝试使用spark.read(table_name)读取表,它可以工作,但如果我尝试使用 Redash 或内置数据块的“数据”选项卡,它会产生错误,并且架构 ...
我想一如既往地使用重启策略。 当我的 Spark Streaming 应用程序失败时,它应该会自动启动。 我曾尝试在 podTemplate 中设置策略,但它不起作用。 标签在模板中设置,但重启策略被 spark 覆盖。 ...
我有一个 PySpark 流式管道,它从 Kafka 主题读取数据,数据经过各种转换,最后合并到数据块增量表中。 一开始,我们使用合并 function 将数据加载到增量表中,如下所示。 这个传入的 dataframe inc_df 包含所有分区的数据。 我们在表级别执行上述查询。 我在下图中给出 ...
在我的 spark 应用程序 (Java) 中,我试图读取通过套接字发送的传入 JSON 数据。 数据为字符串格式。 例如。 “{“deviceId”:“1”,“温度”:4.5}”。 我创建了一个架构,如下所示 我写了下面的代码来提取字段,并将它们变成一个列,我可以在 SQL 查询中使用它。 数据 ...
我有一个用例从 HTTP 源下载内容并使用 python 将其摄取到 HDFS,源中可用的数据不是实时数据,它有一些内容每周更改一次,我必须每周下载更新的内容,要下载的文件不会是 50k 到 80k 文件,我必须通过多线程来完成我有一些问题我可以在这种情况下使用 spark 吗? 如果是这样,请告 ...
我需要在阅读 stream 中知道如何开始读取特定文件夹中的文件。在我的存储帐户数据来自 2019 年 yyyymmdd 格式,我需要选择 2022 年的数据,并在检查点流的帮助下处理新的月数据。 checkpointPath = '/mnt/checkpointasnmod1' schemapa ...
我正在使用下面的 spark streaming Scala 代码来消费来自生产者主题的实时 kafka 消息。 但问题是有时我的工作由于服务器连接或其他原因而失败,并且在我的代码中自动提交属性设置为真,因为某些消息丢失并且无法存储在我的数据库中。 所以只想知道如果我们想从特定的偏移量中提取旧的 k ...
我希望能够从 kafka 主题中读取数据,将其按列分组并聚合/减少给定列的总和。 如果消息 a 的时间戳大于消息 b 的时间戳 -> 我想从 a 获取时间戳,否则从 B 获取时间戳。 因此,如果我根据给定年份对我的 DF 进行分组,我想获得该给定年份的消息的最大时间戳以及该年份所有销售额的总 ...
我有 csv 数据作为 DStreams 来自流量计数器。 样本如下 我想按车辆类别计算平均速度(每个位置)。 我想通过转型来实现这一目标。 以下是我正在寻找的结果。 ...
我必须从每天 output 的时间序列开始按group计算value列的累计和。 如果我处理一批,它应该是这样的:val columns = Seq("timestamp", "group", "value") val data = List( (Instant.parse("2020-01-0 ...
我正在尝试使用 Apache Kafka 和 Spark 获取 stream 数据,但我在代码的第 24 行收到错误消息,提示“无法解析“KafkaUtils”中的方法“createStream””。 我也尝试使用 KafkaUtils.createDirectStream 但这也没有用。 我该如 ...
对于一个特定的用例,我们正在使用 spark 结构化流,但这个过程不是高效和稳定的。 聚合状态操作是整个作业中耗时最多的阶段,也是 memory 的 crunching 阶段。 Spark Streaming 提供了 rocksDB 的实现来管理 state。它帮助我们获得了一些稳定性,但增加了 ...
我正在尝试使用 Kafka ByteArrayDeserializer 从 Kafka 主题中读取 avro 记录。 但低于例外。 我的代码: 任何帮助都很感激。 谢谢你。 ...
我一直在阅读这篇文章 - https://www.databricks.com/session_na20/native-support-of-prometheus-monitoring-in-apache-spark-3-0并且已经提到我们可以获得火花流输入行、处理速率和批处理持续时间等指标到普罗米 ...
我有一个在数据块中运行的火花流式查询。 将数据从 kafka 主题加载到 delta lake 时,单元格 output 在运行时显示“版本的计算快照:3001”。 我以前多次看到此消息,但这是我第一次看到异常庞大的数字。 这个消息到底是什么意思? 人们应该如何解释幕后发生的事情? 另外,数量多对 ...
我有一个 spark 进程,每个作业处理大约一百万个信号,并将这些行与一个巨大的表(50 亿行)连接起来。 memory 中的整个表大约是 500GB,所以我想知道是否可以只将相关行加载到 memory 中,即 所以我的问题是: 这是否可行,过滤子句中可能有一百万行(fileIds.count ...