Spark：操纵多个RDD

Question

最近，我一直在使用pyspark进行一个项目，遇到了这个我不知道如何解决的问题。 基本上，操作涉及3个文件，每个文件如下所示，

文件1：将一个ID集（idset1）映射到另一个ID集（idset2）

线条看起来像

[000001, 15120001]
[000002, 15120002]
...

文件2：将idset2中的id映射到idset2中每个id中包含的项目

线条看起来像

[15120001, 600001]
[15120001, 600002]
[15120002, 601988]
...

File3：一系列数字对应于每个id中的每个项目

线条看起来像

[600001, 1.11, 1.12, 1.32, 1.42, ..., 1.51]
[600002, 5.12, 5.21, 5.23, 5.21, ..., 5.21]
[601988, 52.1, 52.1, 52.2, 52.4, ..., 52.1]
...

我需要做的是得到类似

[000001, (1.11+5.12)/2,(1.12+5.21)/2,...,(1.51+5.21)/2]
[000002, 52.1, 52.1, 52.2, 52.4, ..., 52.1]
...

即，将idset1中的id映射到与idset1中的每个id对应的idset2的id中项的均等加权平均值。

如果有人理解我的意思，请帮助我。 顺便说一下，id不是自动增量的，它们是预先分配的。 感谢所有尝试提前帮助我的人。

Answer 1

让我们从创建示例数据开始。 我假设所有id实际上都是字符串，但是它并不会真正影响进一步的计算。

rdd1 = sc.parallelize([["000001", "15120001"], ["000002", "15120002"]])

rdd2 = sc.parallelize([
    ["15120001", "600001"], ["15120001", "600002"],
    ["15120002", "601988"]
])

rdd3 = sc.parallelize([
    ["600001", 1.11, 1.12, 1.32, 1.42, 1.51],
    ["600002", 5.12, 5.21, 5.23, 5.21, 5.21],
    ["601988", 52.1, 52.1, 52.2, 52.4, 52.1]
])

接下来，将所有RDDs转换为DataFrames ：

df1 = rdd1.toDF(("id1", "id2"))
df2 = rdd2.toDF(("id2_", "item_id"))

n_features = len(rdd3.first()) - 1
feature_names = ["x_{0}".format(i) for i in range(n_features)]

df3 = rdd3.toDF(["item_id_"] + feature_names)

联接数据：

from pyspark.sql.functions import col

combined = (df1
    .join(df2, col("id2") == col("id2_"))
    .join(df3, col("item_id") == col("item_id_")))

并汇总：

from pyspark.sql.functions import avg

exprs = [avg(x).alias(x) for x in feature_names]
aggregated = combined.groupBy(col("id1")).agg(*exprs)
aggregated.show()

## +------+-----+-----+------------------+-----+----+
## |   id1|  x_0|  x_1|               x_2|  x_3| x_4|
## +------+-----+-----+------------------+-----+----+
## |000001|3.115|3.165|3.2750000000000004|3.315|3.36|
## |000002| 52.1| 52.1|              52.2| 52.4|52.1|
## +------+-----+-----+------------------+-----+----+

如果需要，可以将汇总数据转换回RDD ：

aggregated.map(tuple).collect()
## [('000001', 3.115, 3.165, 3.2750000000000004, 3.315, 3.36),
##     ('000002', 52.1, 52.1, 52.2, 52.4, 52.1)]

Spark：操纵多个RDD

问题描述

1 个解决方案

解决方案1
3 已采纳 2015-12-14 04:55:35

Spark：操纵多个RDD

问题描述

1 个解决方案

解决方案1 3 已采纳 2015-12-14 04:55:35

解决方案1
3 已采纳 2015-12-14 04:55:35