繁体 English 中英

PySpark RDD到带有元组和字典列表的数据框

[英]PySpark RDD to dataframe with list of tuple and dictionary

原文 2018-03-01 20:28:15 9 1 python/ dictionary/ apache-spark/ dataframe/ rdd

我已经在pyspark中处理了一些数据，它是具有这种结构的RDD

[(u'991', {'location': 'Australia', 'Age': '27', 'Colour': Pink}), (u'993', {'location': 'Singapore', 'Age': '55', 'Colour': Black}), (u'993', {'location': 'Mexico', 'Age': '12', 'Colour': Blue}), (u'994', {'location': 'USA', 'Age': '24', 'Colour': Red})]

如何将该结构转换为数据框？ 我的最终目标是可以存储一个包含4列（ID（即991），位置，年龄，颜色）的配置单元表

鉴于字典位于元组中，因此行解决方案似乎不起作用

1 个解决方案

将每个元组转换为Row对象，然后调用toDF方法； Row(ID=t[0], **t[1])将元组中的字典作为关键字参数传递给每一行，并使用ID = t[0]创建一个以ID为键的新键值对：

from pyspark.sql import Row
rdd.map(lambda t: Row(ID=t[0], **t[1])).toDF().show()
+---+------+---+---------+
|Age|Colour| ID| location|
+---+------+---+---------+
| 27|  Pink|991|Australia|
| 55| Black|993|Singapore|
| 12|  Blue|993|   Mexico|
| 24|   Red|994|      USA|
+---+------+---+---------+

Pyspark：将元组类型RDD转换为DataFrame

[英]Pyspark: convert tuple type RDD to DataFrame

通过在pyspark中使用RDD从字典创建数据框

[英]create a dataframe from dictionary by using RDD in pyspark

PySpark使用来自RDD的三列与元组和int制作数据框

[英]PySpark making dataframe with three columns from RDD with tuple and int

具有类型列表的PySpark RDD转换为DataFrame

[英]PySpark RDD with Typed List convert to DataFrame

Pyspark：按键聚合RDD，然后按键汇总元组值列表

[英]Pyspark: Aggregate RDD by key then sum the list of tuple values also by key

pyspark：将DenseVector展开为RDD中的元组

[英]pyspark: expand a DenseVector to tuple in a RDD

Pyspark rdd 到 dataframe 转换

[英]Pyspark rdd to dataframe conversion

pyspark RDD到DataFrame

[英]pyspark RDD to DataFrame

rdd vs dataframe 在 pyspark

[英]rdd vs dataframe in pyspark

从Pyspark中的RDD中提取字典

[英]Extracting a dictionary from an RDD in Pyspark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Pyspark：将元组类型RDD转换为DataFrame 通过在pyspark中使用RDD从字典创建数据框 PySpark使用来自RDD的三列与元组和int制作数据框具有类型列表的PySpark RDD转换为DataFrame Pyspark：按键聚合RDD，然后按键汇总元组值列表 pyspark：将DenseVector展开为RDD中的元组 Pyspark rdd 到 dataframe 转换 pyspark RDD到DataFrame rdd vs dataframe 在 pyspark 从Pyspark中的RDD中提取字典

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM