pyspark RDD將行擴展為多行

Question

我在pyspark中有以下RDD，我相信這應該很簡單，但是無法弄清楚：

information = [ (10, 'sentence number one'),
                (17, 'longer sentence number two') ]

rdd = sc.parallelize(information)

我需要應用一個轉換，將RDD轉換為：

[ ('sentence', 10),
  ('number', 10),
  ('one', 10),
  ('longer', 17),
  ('sentence', 17),
  ('number', 17),
  ('two', 17) ]

基本上將句子鍵擴展為多行，並將單詞作為鍵。

我想避免使用SQL。

Answer 1

使用flatMap ：

rdd.flatMap(lambda x: [(w, x[0]) for w in x[1].split()])

示例：

rdd.flatMap(lambda x: [(w, x[0]) for w in x[1].split()]).collect()
# [('sentence', 10), ('number', 10), ('one', 10), ('longer', 17), ('sentence', 17), ('number', 17), ('two', 17)]

pyspark RDD將行擴展為多行

問題描述

1 個解決方案

解決方案1
5 已采納 2017-05-06 18:53:52

pyspark RDD將行擴展為多行

問題描述

1 個解決方案

解決方案1 5 已采納 2017-05-06 18:53:52

解決方案1
5 已采納 2017-05-06 18:53:52