簡體 English 中英

研究RDD-pyspark的不同元素

[英]work on distinct elements of RDD-pyspark

原文 2016-01-18 14:25:34 5 1 python/ pyspark/ spark-streaming/ rdd

我正在從Kafka接收數據到Spark Streaming應用程序。 它以Transformed DStreams的格式出現。 然后，我只保留我想要的功能。
features=data.map(featurize)
這給了我“名字”，“年齡”，“隨便什么” 。
然后，我只想保留所有數據的名稱
features=data.map(featurize).map(lambda Names: Names["name"]

現在，當我打印此命令時，我得到了所有來自流應用程序的名稱，但是我想分別處理每個名稱。
更具體地說，我想檢查每個名稱，如果我以前曾經遇到過它，我想在其上應用一個函數。 否則我將繼續我的申請。 因此，我希望每個名稱都是一個字符串，以便可以將其插入到檢查過去是否看到過一個字符串的函數中。

我知道foreach會給我每個RDD，但是我仍然想分別處理每個RDD的名稱。

pyspark中有什么方法可以這樣做嗎？

1 個解決方案

所以我要做的是定義一個函數，該函數檢查我過去是否看到過該名稱，然后使用.filter(myfunc)僅使用我想要的名稱...

現在的問題是，在每個新的流式傳輸窗口中，該功能都是從一開始就應用的，因此，如果我在第一個窗口中看到約翰名字7次，我只會保留一次，但是如果看到約翰名字在第二個窗口中5次，我將再次保留一次...

我想為所有流媒體應用程序保留一次John的名字...對此有何想法？

在 pyspark 的 rdd 中選擇兩個元素

[英]pick two elements in rdd in pyspark

RDD中每個鍵的PySpark不同列表

[英]PySpark Distinct List of Each of the Keys from an RDD

pyspark sql函數而不是rdd與眾不同

[英]pyspark sql functions instead of rdd distinct

在 RDD 元素上評估 pyspark 中的 Xquery

[英]Evaluate Xquery in pyspark on RDD elements

將RDD中的元素列表轉換為float pyspark

[英]Converting List of elements in a RDD to a float pyspark

如何在Pyspark RDD中找到元素索引？

[英]How to find the index of elements in a Pyspark RDD?

如何將RDD的元素合並並收集到pyspark中的列表中

[英]How to combine and collect elements of an RDD into a list in pyspark

Pyspark：從另一個RDD獲取一個RDD元素的索引

[英]Pyspark: Get indexes of an RDD elements from another RDD

PySpark：獲取特定RDD分區的元素

[英]PySpark: Taking elements of a particular RDD partition

Pyspark：從 RDD 中刪除前 N 個元素

[英]Pyspark: Remove first N elements from a RDD

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在 pyspark 的 rdd 中選擇兩個元素 RDD中每個鍵的PySpark不同列表 pyspark sql函數而不是rdd與眾不同在 RDD 元素上評估 pyspark 中的 Xquery 將RDD中的元素列表轉換為float pyspark 如何在Pyspark RDD中找到元素索引？如何將RDD的元素合並並收集到pyspark中的列表中 Pyspark：從另一個RDD獲取一個RDD元素的索引 PySpark：獲取特定RDD分區的元素 Pyspark：從 RDD 中刪除前 N 個元素

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM