簡體   English   中英

研究RDD-pyspark的不同元素

[英]work on distinct elements of RDD-pyspark

我正在從Kafka接收數據到Spark Streaming應用程序。 它以Transformed DStreams的格式出現。 然后,我只保留我想要的功能。
features=data.map(featurize)
這給了我“名字”,“年齡”,“隨便什么”
然后,我只想保留所有數據的名稱
features=data.map(featurize).map(lambda Names: Names["name"]

現在,當我打印此命令時,我得到了所有來自流應用程序的名稱,但是我想分別處理每個名稱。
更具體地說,我想檢查每個名稱,如果我以前曾經遇到過它,我想在其上應用一個函數。 否則我將繼續我的申請。 因此,我希望每個名稱都是一個字符串,以便可以將其插入到檢查過去是否看到過一個字符串的函數中。

我知道foreach會給我每個RDD,但是我仍然想分別處理每個RDD的名稱。

pyspark中有什么方法可以這樣做嗎?

所以我要做的是定義一個函數,該函數檢查我過去是否看到過該名稱,然后使用.filter(myfunc)僅使用我想要的名稱...

現在的問題是,在每個新的流式傳輸窗口中,該功能都是從一開始就應用的,因此,如果我在第一個窗口中看到約翰名字7次,我只會保留一次,但是如果看到約翰名字在第二個窗口中5次,我將再次保留一次...

我想為所有流媒體應用程序保留一次John的名字...對此有何想法?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM