[英]pyspark: rdd based operation only
我正在嘗試僅使用基於 rdd 的操作。 我有一個類似的文件;
0, Alpha,-3.9, 4, 2001-02-01, 5, 20
0, Beta,-3.8, 3, 2002-02-01, 6, 21
1, Gamma,-3.7, 8, 2003-02-01, 7, 22
0, Alpha,-3.5, 5, 2004-02-01, 8, 23
0, Alpha,-3.9, 6, 2005-02-01, 8, 27
首先,我將數據加載到 rdd 中,如下所示,
rdd = sc.textFile(myDataset)
然后我對每個原始元素中first elements
的不同元素感興趣。 表示Alpha, Beta, Gamma
。 在這種情況下,我期望3
不同的元素。 這就是我所做的,
coll = [] # to collect the distinct elements
list_ = rdd.collect() # to get the list
for i in list_:
result = myFun(i) # this function I created to process line by line and return a tuple.
if result[1] not in coll:
coll.append(result[1])
僅使用基於 rdd 的操作有沒有更快/更好的方法來做到這一點?
您可以使用map
, distinct
所示:
rdd = sc.textFile('path/to/file/input.txt')
rdd.take(10)
#[u'0, Alpha,-3.9, 4, 2001-02-01, 5, 20', u'0, Beta,-3.8, 3, 2002-02-01, 6, 21', u'1, Gamma,-3.7, 8, 2003-02-01, 7, 22', u'0, Alpha,-3.5, 5, 2004-02-01, 8, 23', u'0, Alpha,-3.9, 6, 2005-02-01, 8, 27']
list_ = rdd.map(lambda line: line.split(",")).map(lambda e : e[1]).distinct().collect()
list_
[u' Alpha', u' Beta', u' Gamma']
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.