[英]How to calculate average by category in pyspark streaming?
我有 csv 數據作為 DStreams 來自流量計數器。 樣本如下 我想按車輛類別計算平均速度(每個位置)。 我想通過轉型來實現這一目標。 以下是我正在尋找的結果。 ...
[英]How to calculate average by category in pyspark streaming?
我有 csv 數據作為 DStreams 來自流量計數器。 樣本如下 我想按車輛類別計算平均速度(每個位置)。 我想通過轉型來實現這一目標。 以下是我正在尋找的結果。 ...
[英]Read Nested JSON Data in DStrem in pyspark
我編寫了以下代碼來從 Tweepy API 流式傳輸數據。 我在流對象中獲取數據。 但是無法獲得 streamp["user"]["followers_count"] 但不知道如何獲得。 我也試過jsonLines = lines.flatMap(lambda json_str:json.loads ...
[英]Spark: How iterate through TransformedDStream, DataFrames, RDDs, DStreams?
我從 TCP 端口獲取數據流,其中包括日期時間戳 info1 info2。 數據在一行中,我想拆分它。 我試圖遍歷 DStream。 我收到以下錯誤: 類型錯誤:'DStream' object 不可迭代然后我嘗試拆分並創建 dataframe。 我收到以下錯誤: 類型錯誤:'Transforme ...
[英]Get Max & Min value for each key in the RDD
這是結果的一小部分: 我想獲得每個鍵的最大值和最小值,如何? ...
[英]count number of elements in each pyspark Dstream
我正在尋找一種方法來計算我每次在 pyspark 創建的 Dstream 中收到的元素數量(或 RDD 數量) ,我正在使用。 如果您知道可以幫助我的方法,我會很高興。 謝謝。 ...
[英]Spark never stops processing first batch
我正在嘗試運行我在 github 上找到的應用程序,這個: https://github.com/CSIRT-MU/AIDA-Framework 我在 Ubuntu 18.04.1 虛擬機中運行它。 在其數據處理管道中的某個時刻,它使用 spark 並且似乎在這一點上卡住了。 我可以從 web UI ...
[英]DStream to Rdd in Spark-Straming
我有一個DStream[String,String] ,我需要將它轉換為RDD[String,String] 。 有什么辦法嗎? 我需要使用Scala語言。 提前致謝!! ...
[英]How to gracefully stop a spark dStream process
我正在嘗試從 kafka 流中讀取數據,對其進行處理並將其保存到報告中。 我想每天運行一次這項工作。 我正在使用 dStreams。 我可以在這種情況下使用 dStreams 中的trigger(Trigger.Once)等價物。 感謝建議和幫助。 ...
[英]Spark's socket text stream is empty
我正在關注 Spark 的流媒體指南。 我沒有使用nc -lk 9999 ,而是創建了自己的簡單 Python 服務器,如下所示。 從下面的代碼可以看出,它會隨機生成字母a到z 。 我用客戶端代碼測試了這個服務器,如下所示。 但是,我的 Spark 流代碼似乎沒有收到任何數據,或者它沒有打印任何內容 ...
[英]Unable to manually commit offset in kafka direct stream, Spark streaming
我正在嘗試驗證手動偏移提交的工作。 當我嘗試通過使用 thread.sleep()/jssc.stop()/ 在 while 循環中拋出異常來退出作業時,我看到正在提交偏移量。 我只是發送幾條消息以進行測試,但是一旦作業開始處理批處理,我就會看到 0 滯后。 spark 何時實際提交偏移量?Jav ...
[英]How to retrieve location when streaming twitter data using Pyspark
我正在使用PYSpark實時流推文。 我想檢索文本,位置,用戶名。 目前,我僅收到推文。 無論如何也有要得到的位置。 我正在使用這一行代碼來獲取推文。 ...
[英]Best practice for key with two values
到目前為止,我有一個JavaDStream,它首先看起來像這樣: 首先,我將行拆分並映射到JavaPairDStream中的鍵值對: 這樣我得到了: 最后,輸出應如下所示 它計算每個密鑰的獨特水果和國家/地區的數量。 現在的最佳做法是什么? 首先,grou ...
[英]Spark Streaming tuning number of records per batch size not working?
我的 Spark 流應用程序正在使用 DStream 方法從 kafka 讀取數據,並且我試圖讓批處理大小在 10 秒內處理 60,000 條消息。 我所做的, 創建了一個有 3 個分區的主題 spark.streaming.kafka.maxRatePerPartition = 6000 ...
[英]Constructing window based on message timestamps in Spark DStream
我正在從 Kafka 接收 DStream,我想按鍵將某個滑動窗口中的所有消息分組。 關鍵是這個窗口需要基於每條消息中提供的時間戳(單獨的字段): 所以,我想考慮timestamp of the first message每個關鍵timestamp of the first message - ...
[英]Kafka - Spark Streaming Integration: DStreams and Task reuse
我正在嘗試了解Spark Streaming(而非結構化流)的內部,特別是任務查看DStream的方式。 我在這里查看 scala中Spark的源代碼。 我了解調用堆棧: 我了解DStream實際上是RDD的哈希圖,但是我試圖了解任務查看DStream的方式。 我知道Kafka S ...
[英]Case Class within foreachRDD causes Serialization Error
如果不嘗試使用案例類,而僅使用toDF()為列設置默認名稱,或者如果我通過toDF(“ c1,” c2“)分配列的默認名稱,則可以在foreachRDD中創建DF。 嘗試使用Case類並查看示例后,我得到: 如果我繞開Case Class語句,則得到: 這是遺留問題,但我對 ...
[英]Spark QueueStream never exhausted
對我出於研究目的從互聯網上借來的一段代碼感到困惑。 這是代碼: 我一直在跟蹤它以進行檢查,並指出“ hello”將永遠被打印出來: 我本以為queueStream將在3次迭代后耗盡。 那么,我錯過了什么? ...
[英]Scala Spark Streaming unit test with spark-testing-base throws error
我試圖使用spark-testing-base在我的spark流代碼上運行單元測試。 而且我在運行他們的示例代碼時遇到了麻煩。 這是我復制的代碼片段 導入com.holdenkarau.spark.testing.SharedSparkContext導入org.scalatest. ...
[英]Spark Streaming Run Actions On DStream Asynchronously
我正在編寫一個用於數據攝取的程序。 從Kafka讀取到DStream,將Dstrem分為3個流,並在每個流上執行Action: 如果可能觸發整個DStream而不是RDD上的異步提交。 ...
[英]Join Dstream[Document] and Rdd by key Spark Scala
這是我的代碼: 有辦法我可以加入這兩個嗎? ...