我有 csv 数据作为 DStreams 来自流量计数器。 样本如下 我想按车辆类别计算平均速度(每个位置)。 我想通过转型来实现这一目标。 以下是我正在寻找的结果。 ...
我有 csv 数据作为 DStreams 来自流量计数器。 样本如下 我想按车辆类别计算平均速度(每个位置)。 我想通过转型来实现这一目标。 以下是我正在寻找的结果。 ...
我编写了以下代码来从 Tweepy API 流式传输数据。 我在流对象中获取数据。 但是无法获得 streamp["user"]["followers_count"] 但不知道如何获得。 我也试过jsonLines = lines.flatMap(lambda json_str:json.loads ...
我从 TCP 端口获取数据流,其中包括日期时间戳 info1 info2。 数据在一行中,我想拆分它。 我试图遍历 DStream。 我收到以下错误: 类型错误:'DStream' object 不可迭代然后我尝试拆分并创建 dataframe。 我收到以下错误: 类型错误:'Transforme ...
这是结果的一小部分: 我想获得每个键的最大值和最小值,如何? ...
我正在寻找一种方法来计算我每次在 pyspark 创建的 Dstream 中收到的元素数量(或 RDD 数量) ,我正在使用。 如果您知道可以帮助我的方法,我会很高兴。 谢谢。 ...
我正在尝试运行我在 github 上找到的应用程序,这个: https://github.com/CSIRT-MU/AIDA-Framework 我在 Ubuntu 18.04.1 虚拟机中运行它。 在其数据处理管道中的某个时刻,它使用 spark 并且似乎在这一点上卡住了。 我可以从 web UI ...
我有一个DStream[String,String] ,我需要将它转换为RDD[String,String] 。 有什么办法吗? 我需要使用Scala语言。 提前致谢!! ...
我正在尝试从 kafka 流中读取数据,对其进行处理并将其保存到报告中。 我想每天运行一次这项工作。 我正在使用 dStreams。 我可以在这种情况下使用 dStreams 中的trigger(Trigger.Once)等价物。 感谢建议和帮助。 ...
我正在关注 Spark 的流媒体指南。 我没有使用nc -lk 9999 ,而是创建了自己的简单 Python 服务器,如下所示。 从下面的代码可以看出,它会随机生成字母a到z 。 我用客户端代码测试了这个服务器,如下所示。 但是,我的 Spark 流代码似乎没有收到任何数据,或者它没有打印任何内容 ...
我正在尝试验证手动偏移提交的工作。 当我尝试通过使用 thread.sleep()/jssc.stop()/ 在 while 循环中抛出异常来退出作业时,我看到正在提交偏移量。 我只是发送几条消息以进行测试,但是一旦作业开始处理批处理,我就会看到 0 滞后。 spark 何时实际提交偏移量?Jav ...
我正在使用PYSpark实时流推文。 我想检索文本,位置,用户名。 目前,我仅收到推文。 无论如何也有要得到的位置。 我正在使用这一行代码来获取推文。 ...
到目前为止,我有一个JavaDStream,它首先看起来像这样: 首先,我将行拆分并映射到JavaPairDStream中的键值对: 这样我得到了: 最后,输出应如下所示 它计算每个密钥的独特水果和国家/地区的数量。 现在的最佳做法是什么? 首先,grou ...
我的 Spark 流应用程序正在使用 DStream 方法从 kafka 读取数据,并且我试图让批处理大小在 10 秒内处理 60,000 条消息。 我所做的, 创建了一个有 3 个分区的主题 spark.streaming.kafka.maxRatePerPartition = 6000 ...
我正在从 Kafka 接收 DStream,我想按键将某个滑动窗口中的所有消息分组。 关键是这个窗口需要基于每条消息中提供的时间戳(单独的字段): 所以,我想考虑timestamp of the first message每个关键timestamp of the first message - ...
我正在尝试了解Spark Streaming(而非结构化流)的内部,特别是任务查看DStream的方式。 我在这里查看 scala中Spark的源代码。 我了解调用堆栈: 我了解DStream实际上是RDD的哈希图,但是我试图了解任务查看DStream的方式。 我知道Kafka S ...
如果不尝试使用案例类,而仅使用toDF()为列设置默认名称,或者如果我通过toDF(“ c1,” c2“)分配列的默认名称,则可以在foreachRDD中创建DF。 尝试使用Case类并查看示例后,我得到: 如果我绕开Case Class语句,则得到: 这是遗留问题,但我对 ...
对我出于研究目的从互联网上借来的一段代码感到困惑。 这是代码: 我一直在跟踪它以进行检查,并指出“ hello”将永远被打印出来: 我本以为queueStream将在3次迭代后耗尽。 那么,我错过了什么? ...
我试图使用spark-testing-base在我的spark流代码上运行单元测试。 而且我在运行他们的示例代码时遇到了麻烦。 这是我复制的代码片段 导入com.holdenkarau.spark.testing.SharedSparkContext导入org.scalatest. ...
我正在编写一个用于数据摄取的程序。 从Kafka读取到DStream,将Dstrem分为3个流,并在每个流上执行Action: 如果可能触发整个DStream而不是RDD上的异步提交。 ...
这是我的代码: 有办法我可以加入这两个吗? ...