标签[dstream] - 堆栈内存溢出

如何计算 pyspark 流媒体中按类别的平均值？ - How to calculate average by category in pyspark streaming?

我有 csv 数据作为 DStreams 来自流量计数器。样本如下我想按车辆类别计算平均速度（每个位置）。我想通过转型来实现这一目标。以下是我正在寻找的结果。 ...

在 pyspark 中读取 DStrem 中的嵌套 JSON 数据 - Read Nested JSON Data in DStrem in pyspark

我编写了以下代码来从 Tweepy API 流式传输数据。我在流对象中获取数据。但是无法获得 streamp["user"]["followers_count"] 但不知道如何获得。我也试过jsonLines = lines.flatMap(lambda json_str:json.loads ...

Spark：如何迭代 TransformedDStream、DataFrame、RDD、DStream？ - Spark: How iterate through TransformedDStream, DataFrames, RDDs, DStreams?

我从 TCP 端口获取数据流，其中包括日期时间戳 info1 info2。数据在一行中，我想拆分它。我试图遍历 DStream。我收到以下错误：类型错误：'DStream' object 不可迭代然后我尝试拆分并创建 dataframe。我收到以下错误：类型错误：'Transforme ...

获取 RDD 中每个键的最大值和最小值 - Get Max & Min value for each key in the RDD

这是结果的一小部分：我想获得每个键的最大值和最小值，如何？ ...

计算每个 pyspark Dstream 中的元素数 - count number of elements in each pyspark Dstream

我正在寻找一种方法来计算我每次在 pyspark 创建的 Dstream 中收到的元素数量（或 RDD 数量），我正在使用。如果您知道可以帮助我的方法，我会很高兴。谢谢。 ...

Spark 永远不会停止处理第一批 - Spark never stops processing first batch

我正在尝试运行我在 github 上找到的应用程序，这个： https://github.com/CSIRT-MU/AIDA-Framework 我在 Ubuntu 18.04.1 虚拟机中运行它。在其数据处理管道中的某个时刻，它使用 spark 并且似乎在这一点上卡住了。我可以从 web UI ...

在 Spark-Sraming 中 DStream 到 Rdd - DStream to Rdd in Spark-Straming

我有一个DStream[String,String] ，我需要将它转换为RDD[String,String] 。有什么办法吗？我需要使用Scala语言。提前致谢！！ ...

如何优雅地停止 spark dStream 进程 - How to gracefully stop a spark dStream process

我正在尝试从 kafka 流中读取数据，对其进行处理并将其保存到报告中。我想每天运行一次这项工作。我正在使用 dStreams。我可以在这种情况下使用 dStreams 中的trigger(Trigger.Once)等价物。感谢建议和帮助。 ...

Spark的socket文本stream为空 - Spark's socket text stream is empty

我正在关注 Spark 的流媒体指南。我没有使用nc -lk 9999 ，而是创建了自己的简单 Python 服务器，如下所示。从下面的代码可以看出，它会随机生成字母a到z 。我用客户端代码测试了这个服务器，如下所示。但是，我的 Spark 流代码似乎没有收到任何数据，或者它没有打印任何内容 ...

无法在 kafka 直接 stream 中手动提交偏移量，Spark 流 - Unable to manually commit offset in kafka direct stream, Spark streaming

我正在尝试验证手动偏移提交的工作。当我尝试通过使用 thread.sleep()/jssc.stop()/ 在 while 循环中抛出异常来退出作业时，我看到正在提交偏移量。我只是发送几条消息以进行测试，但是一旦作业开始处理批处理，我就会看到 0 滞后。 spark 何时实际提交偏移量？Jav ...

使用Pyspark传输Twitter数据时如何检索位置 - How to retrieve location when streaming twitter data using Pyspark

我正在使用PYSpark实时流推文。我想检索文本，位置，用户名。目前，我仅收到推文。无论如何也有要得到的位置。我正在使用这一行代码来获取推文。 ...

具有两个值的键的最佳实践 - Best practice for key with two values

到目前为止，我有一个JavaDStream，它首先看起来像这样：首先，我将行拆分并映射到JavaPairDStream中的键值对：这样我得到了：最后，输出应如下所示它计算每个密钥的独特水果和国家/地区的数量。现在的最佳做法是什么？首先，grou ...

Spark Streaming 调整每个批次大小的记录数不起作用？ - Spark Streaming tuning number of records per batch size not working?

我的 Spark 流应用程序正在使用 DStream 方法从 kafka 读取数据，并且我试图让批处理大小在 10 秒内处理 60,000 条消息。我所做的，创建了一个有 3 个分区的主题 spark.streaming.kafka.maxRatePerPartition = 6000 ...

Spark DStream中基于消息时间戳构造窗口 - Constructing window based on message timestamps in Spark DStream

我正在从 Kafka 接收 DStream，我想按键将某个滑动窗口中的所有消息分组。关键是这个窗口需要基于每条消息中提供的时间戳（单独的字段）：所以，我想考虑timestamp of the first message每个关键timestamp of the first message - ...

Kafka-Spark Streaming集成：DStream和任务重用 - Kafka - Spark Streaming Integration: DStreams and Task reuse

我正在尝试了解Spark Streaming（而非结构化流）的内部，特别是任务查看DStream的方式。我在这里查看 scala中Spark的源代码。我了解调用堆栈：我了解DStream实际上是RDD的哈希图，但是我试图了解任务查看DStream的方式。我知道Kafka S ...

foreachRDD中的案例类导致序列化错误 - Case Class within foreachRDD causes Serialization Error

如果不尝试使用案例类，而仅使用toDF（）为列设置默认名称，或者如果我通过toDF（“ c1，” c2“）分配列的默认名称，则可以在foreachRDD中创建DF。尝试使用Case类并查看示例后，我得到：如果我绕开Case Class语句，则得到：这是遗留问题，但我对 ...

Spark QueueStream从未耗尽 - Spark QueueStream never exhausted

对我出于研究目的从互联网上借来的一段代码感到困惑。这是代码：我一直在跟踪它以进行检查，并指出“ hello”将永远被打印出来：我本以为queueStream将在3次迭代后耗尽。那么，我错过了什么？ ...

带有Spark-Testing-Base的Scala Spark Streaming单元测试抛出错误 - Scala Spark Streaming unit test with spark-testing-base throws error

我试图使用spark-testing-base在我的spark流代码上运行单元测试。而且我在运行他们的示例代码时遇到了麻烦。这是我复制的代码片段导入com.holdenkarau.spark.testing.SharedSparkContext导入org.scalatest. ...

Spark流在DStream上异步运行操作 - Spark Streaming Run Actions On DStream Asynchronously

我正在编写一个用于数据摄取的程序。从Kafka读取到DStream，将Dstrem分为3个流，并在每个流上执行Action：如果可能触发整个DStream而不是RDD上的异步提交。 ...

通过键Spark Scala连接Dstream [Document]和Rdd - Join Dstream[Document] and Rdd by key Spark Scala

这是我的代码：有办法我可以加入这两个吗？ ...