标签[spark-streaming] - 堆栈内存溢出

我正在尝试在 Spark 结构化流中加入拖流数据。数据结构如下：表：持卡人卡号分配时间受让人 1个 01/01/2023 01:00:00 用户 1 1个 01/01/2023 01:00:05 用户 2 1个 01/01/2023 01:00:10 用户 3 表：CardTransact ...

为什么 PySpark 没有使用流从 kafka 读取数据，但可以正常读取？ - Why is PySpark not reading data from kafka using streaming, but works fine with reading it normally?

我正在尝试使用结构化流从 kafka 读取数据，但该程序似乎没有得到任何数据。此代码不会将任何记录打印到控制台：但是，如果我将其修改为不使用这样的流式传输：它可以毫无问题地打印前 10 行数据。关于可能导致此问题的任何线索？ ...

如何运行从kafka获取数据并将其转换为dataframe的pyspark代码？ - How to run a pyspark code that gets data from kafka and converts it to dataframe?

我正在尝试将 kafka 主题放入 spark dataframe 中，因此代码如下：我正在尝试使用 spark-submit 执行代码： spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.1 dev_e ...

如果核心数量多于 Kafka 分区数量，Spark 结构化流式传输是否会受益于动态分配？ - Will Spark structured streaming benefit from dynamic allocation if number of cores more than number of Kafka partitions?

假设我们有一个从 X 分区主题读取的应用程序，对数据进行一些过滤，然后使用结构化流查询将其保存到存储中（没有复杂的混洗逻辑，只是一些简单的转换）。该应用程序是否会受益于动态分配功能，即在数据激增的情况下添加超过 X 个单核执行程序？我问这个，因为我主要使用 DStreams，其中有一个众所周知 ...

具有格式（增量）的 streamWriter 未生成增量表 - streamWriter with format(delta) is not producing a delta table

我在数据块中使用 AutoLoader。但是，当我将 stream 保存为增量表时，生成的表不是增量表。为什么生成的表不是增量格式？如果我尝试使用spark.read(table_name)读取表，它可以工作，但如果我尝试使用 Redash 或内置数据块的“数据”选项卡，它会产生错误，并且架构 ...

我如何使用 spark-submit 而不是 spark-operator 将 RestartPolicy 设置为 kube.netes 上的 Spark 驱动程序 pod？ - How can i set RestartPolicy to Spark driver pod on kubernetes using spark-submit not with spark-operator?

我想一如既往地使用重启策略。当我的 Spark Streaming 应用程序失败时，它应该会自动启动。我曾尝试在 podTemplate 中设置策略，但它不起作用。标签在模板中设置，但重启策略被 spark 覆盖。 ...

如何使用 PySpark/Spark 流将数据并行合并到数据块增量表的分区中？ - How to parallelly merge data into partitions of databricks delta table using PySpark/Spark streaming?

我有一个 PySpark 流式管道，它从 Kafka 主题读取数据，数据经过各种转换，最后合并到数据块增量表中。一开始，我们使用合并 function 将数据加载到增量表中，如下所示。这个传入的 dataframe inc_df 包含所有分区的数据。我们在表级别执行上述查询。我在下图中给出 ...

Apache Spark 的 from_json 未按预期工作 - Apache Spark's from_json not working as expected

在我的 spark 应用程序 (Java) 中，我试图读取通过套接字发送的传入 JSON 数据。数据为字符串格式。例如。 “{“deviceId”：“1”，“温度”：4.5}”。我创建了一个架构，如下所示我写了下面的代码来提取字段，并将它们变成一个列，我可以在 SQL 查询中使用它。数据 ...

如何使用 spark 从 HTTP 源下载内容并将数据提取到 HDFS - How to Download content from HTTP source and Ingest Data to HDFS using spark

我有一个用例从 HTTP 源下载内容并使用 python 将其摄取到 HDFS，源中可用的数据不是实时数据，它有一些内容每周更改一次，我必须每周下载更新的内容，要下载的文件不会是 50k 到 80k 文件，我必须通过多线程来完成我有一些问题我可以在这种情况下使用 spark 吗？如果是这样，请告 ...

如何从 azure 数据块中的特定文件夹开始读取数据流 - How to readstream data from a specific folder onwards in azure databricks

我需要在阅读 stream 中知道如何开始读取特定文件夹中的文件。在我的存储帐户数据来自 2019 年 yyyymmdd 格式，我需要选择 2022 年的数据，并在检查点流的帮助下处理新的月数据。 checkpointPath = '/mnt/checkpointasnmod1' schemapa ...

如何在通过 Spark Streaming Scala 使用来自 Kafka 主题的消息时设置特定的偏移量 - How to set specific offset number while consuming message from Kafka topic through Spark streaming Scala

我正在使用下面的 spark streaming Scala 代码来消费来自生产者主题的实时 kafka 消息。但问题是有时我的工作由于服务器连接或其他原因而失败，并且在我的代码中自动提交属性设置为真，因为某些消息丢失并且无法存储在我的数据库中。所以只想知道如果我们想从特定的偏移量中提取旧的 k ...

Pyspark Structured Streaming GroupBy 和 Reduce with condition - Pyspark Structured Streaming GroupBy and Reduce with condition

我希望能够从 kafka 主题中读取数据，将其按列分组并聚合/减少给定列的总和。如果消息 a 的时间戳大于消息 b 的时间戳 -> 我想从 a 获取时间戳，否则从 B 获取时间戳。因此，如果我根据给定年份对我的 DF 进行分组，我想获得该给定年份的消息的最大时间戳以及该年份所有销售额的总 ...

如何计算 pyspark 流媒体中按类别的平均值？ - How to calculate average by category in pyspark streaming?

我有 csv 数据作为 DStreams 来自流量计数器。样本如下我想按车辆类别计算平均速度（每个位置）。我想通过转型来实现这一目标。以下是我正在寻找的结果。 ...

Spark中从一个stream开始的累计和 - Cumulative sum from the beginning of a stream in Spark

我必须从每天 output 的时间序列开始按group计算value列的累计和。如果我处理一批，它应该是这样的：val columns = Seq("timestamp", "group", "value") val data = List( (Instant.parse("2020-01-0 ...

无法解析“KafkaUtils”中的方法“createStream” - Cannot resolve method "createStream" in "KafkaUtils"

我正在尝试使用 Apache Kafka 和 Spark 获取 stream 数据，但我在代码的第 24 行收到错误消息，提示“无法解析“KafkaUtils”中的方法“createStream””。我也尝试使用 KafkaUtils.createDirectStream 但这也没有用。我该如 ...

Spark Structured Streaming state 管理与 RocksDB - Spark Structured Streaming state management with RocksDB

对于一个特定的用例，我们正在使用 spark 结构化流，但这个过程不是高效和稳定的。聚合状态操作是整个作业中耗时最多的阶段，也是 memory 的 crunching 阶段。 Spark Streaming 提供了 rocksDB 的实现来管理 state。它帮助我们获得了一些稳定性，但增加了 ...

Kafka ByteArrayDeserializer 读取 Spark DStreams 中的 avro 消息 - Kafka ByteArrayDeserializer to read avro messages in Spark DStreams

我正在尝试使用 Kafka ByteArrayDeserializer 从 Kafka 主题中读取 avro 记录。但低于例外。我的代码：任何帮助都很感激。谢谢你。 ...

如何获取普罗米修斯的输入行、处理行和批次持续时间等火花流指标 - How to get spark streaming metrics like input rows, processed rows and batch duration to Prometheus

我一直在阅读这篇文章 - https://www.databricks.com/session_na20/native-support-of-prometheus-monitoring-in-apache-spark-3-0并且已经提到我们可以获得火花流输入行、处理速率和批处理持续时间等指标到普罗米 ...

Compute Snasphot for version: 3001 在数据块中意味着什么？ - What does Compute Snasphot for version : 3001 means in databricks?

我有一个在数据块中运行的火花流式查询。将数据从 kafka 主题加载到 delta lake 时，单元格 output 在运行时显示“版本的计算快照：3001”。我以前多次看到此消息，但这是我第一次看到异常庞大的数字。这个消息到底是什么意思？人们应该如何解释幕后发生的事情？另外，数量多对 ...

仅当 ID 在白名单中时，才将 spark dataframe 行加载到 memory - Load spark dataframe rows into memory only if their IDs are in a whitelist

我有一个 spark 进程，每个作业处理大约一百万个信号，并将这些行与一个巨大的表（50 亿行）连接起来。 memory 中的整个表大约是 500GB，所以我想知道是否可以只将相关行加载到 memory 中，即所以我的问题是：这是否可行，过滤子句中可能有一百万行（fileIds.count ...