cost 246 ms
在 pyspark 中讀取 DStrem 中的嵌套 JSON 數據

[英]Read Nested JSON Data in DStrem in pyspark

我編寫了以下代碼來從 Tweepy API 流式傳輸數據。 我在流對象中獲取數據。 但是無法獲得 streamp["user"]["followers_count"] 但不知道如何獲得。 我也試過jsonLines = lines.flatMap(lambda json_str:json.loads ...

Spark:如何迭代 TransformedDStream、DataFrame、RDD、DStream?

[英]Spark: How iterate through TransformedDStream, DataFrames, RDDs, DStreams?

我從 TCP 端口獲取數據流,其中包括日期時間戳 info1 info2。 數據在一行中,我想拆分它。 我試圖遍歷 DStream。 我收到以下錯誤: 類型錯誤:'DStream' object 不可迭代然后我嘗試拆分並創建 dataframe。 我收到以下錯誤: 類型錯誤:'Transforme ...

Spark 永遠不會停止處理第一批

[英]Spark never stops processing first batch

我正在嘗試運行我在 github 上找到的應用程序,這個: https://github.com/CSIRT-MU/AIDA-Framework 我在 Ubuntu 18.04.1 虛擬機中運行它。 在其數據處理管道中的某個時刻,它使用 spark 並且似乎在這一點上卡住了。 我可以從 web UI ...

如何優雅地停止 spark dStream 進程

[英]How to gracefully stop a spark dStream process

我正在嘗試從 kafka 流中讀取數據,對其進行處理並將其保存到報告中。 我想每天運行一次這項工作。 我正在使用 dStreams。 我可以在這種情況下使用 dStreams 中的trigger(Trigger.Once)等價物。 感謝建議和幫助。 ...

Spark的socket文本stream為空

[英]Spark's socket text stream is empty

我正在關注 Spark 的流媒體指南。 我沒有使用nc -lk 9999 ,而是創建了自己的簡單 Python 服務器,如下所示。 從下面的代碼可以看出,它會隨機生成字母a到z 。 我用客戶端代碼測試了這個服務器,如下所示。 但是,我的 Spark 流代碼似乎沒有收到任何數據,或者它沒有打印任何內容 ...

無法在 kafka 直接 stream 中手動提交偏移量,Spark 流

[英]Unable to manually commit offset in kafka direct stream, Spark streaming

我正在嘗試驗證手動偏移提交的工作。 當我嘗試通過使用 thread.sleep()/jssc.stop()/ 在 while 循環中拋出異常來退出作業時,我看到正在提交偏移量。 我只是發送幾條消息以進行測試,但是一旦作業開始處理批處理,我就會看到 0 滯后。 spark 何時實際提交偏移量?Jav ...

具有兩個值的鍵的最佳實踐

[英]Best practice for key with two values

到目前為止,我有一個JavaDStream,它首先看起來像這樣: 首先,我將行拆分並映射到JavaPairDStream中的鍵值對: 這樣我得到了: 最后,輸出應如下所示 它計算每個密鑰的獨特水果和國家/地區的數量。 現在的最佳做法是什么? 首先,grou ...

Spark DStream中基於消息時間戳構造窗口

[英]Constructing window based on message timestamps in Spark DStream

我正在從 Kafka 接收 DStream,我想按鍵將某個滑動窗口中的所有消息分組。 關鍵是這個窗口需要基於每條消息中提供的時間戳(單獨的字段): 所以,我想考慮timestamp of the first message每個關鍵timestamp of the first message - ...

Kafka-Spark Streaming集成:DStream和任務重用

[英]Kafka - Spark Streaming Integration: DStreams and Task reuse

我正在嘗試了解Spark Streaming(而非結構化流)的內部,特別是任務查看DStream的方式。 我在這里查看 scala中Spark的源代碼。 我了解調用堆棧: 我了解DStream實際上是RDD的哈希圖,但是我試圖了解任務查看DStream的方式。 我知道Kafka S ...

foreachRDD中的案例類導致序列化錯誤

[英]Case Class within foreachRDD causes Serialization Error

如果不嘗試使用案例類,而僅使用toDF()為列設置默認名稱,或者如果我通過toDF(“ c1,” c2“)分配列的默認名稱,則可以在foreachRDD中創建DF。 嘗試使用Case類並查看示例后,我得到: 如果我繞開Case Class語句,則得到: 這是遺留問題,但我對 ...

Spark QueueStream從未耗盡

[英]Spark QueueStream never exhausted

對我出於研究目的從互聯網上借來的一段代碼感到困惑。 這是代碼: 我一直在跟蹤它以進行檢查,並指出“ hello”將永遠被打印出來: 我本以為queueStream將在3次迭代后耗盡。 那么,我錯過了什么? ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM