[英]How can I take a dataframe containing lists of strings and create another dataframe from these lists in Pyspark?
假设我有一个看起来像这样的 dataframe
+--------------------+
| ColA |
+--------------------+
| [val1, val2, val3] |
+--------------------+
| [val4, val5, val6] |
+--------------------+
| [val7, val8, val9] |
+--------------------+
如何创建一个看起来像这样的新 dataframe?
+------+------+------+
| Col1 | Col2 | Col3 |
+------+------+------+
| val1 | val2 | val3 |
+------+------+------+
| val4 | val5 | val6 |
+------+------+------+
| val7 | val8 | val9 |
+------+------+------+
此代码足够健壮,可以采用 arrays 中的任意数量的元素。 虽然OP
在每个数组中有 3 个元素。 我们首先创建上述DataFrame
。
# Loading requisite packages.
from pyspark.sql.functions import col, explode, first, udf
df = sqlContext.createDataFrame([(['val1', 'val2', 'val3'],),
(['val4', 'val5', 'val6'],),
(['val7', 'val8', 'val9'],)],['ColA',])
df.show()
+------------------+
| ColA|
+------------------+
|[val1, val2, val3]|
|[val4, val5, val6]|
|[val7, val8, val9]|
+------------------+
由于我们希望将单个数组的每个元素标记为相应的列,因此第一步我们尝试在列名和值之间进行映射。 我们创建一个user defined function
- ( UDF
)来实现这一点。
def func(c):
return [['Col'+str(i+1),c[i]] for i in range(len(c))]
func_udf = udf(func,ArrayType(StructType([
StructField('a', StringType()),
StructField('b', StringType())
])))
df = df.withColumn('ColA_new',func_udf(col('ColA')))
df.show(truncate=False)
+------------------+---------------------------------------+
|ColA |ColA_new |
+------------------+---------------------------------------+
|[val1, val2, val3]|[[Col1,val1], [Col2,val2], [Col3,val3]]|
|[val4, val5, val6]|[[Col1,val4], [Col2,val5], [Col3,val6]]|
|[val7, val8, val9]|[[Col1,val7], [Col2,val8], [Col3,val9]]|
+------------------+---------------------------------------+
完成此操作后,我们将分解explode
。
# Step 1: Explode the DataFrame
df=df.withColumn('vals', explode('ColA_new')).drop('ColA_new')
df.show()
+------------------+-----------+
| ColA| vals|
+------------------+-----------+
|[val1, val2, val3]|[Col1,val1]|
|[val1, val2, val3]|[Col2,val2]|
|[val1, val2, val3]|[Col3,val3]|
|[val4, val5, val6]|[Col1,val4]|
|[val4, val5, val6]|[Col2,val5]|
|[val4, val5, val6]|[Col3,val6]|
|[val7, val8, val9]|[Col1,val7]|
|[val7, val8, val9]|[Col2,val8]|
|[val7, val8, val9]|[Col3,val9]|
+------------------+-----------+
展开后,我们提取第一个和第二个元素,在UDF
中分别命名为a
和b
。
df=df.withColumn('column_name', col('vals').getItem('a'))
df=df.withColumn('value', col('vals').getItem('b')).drop('vals')
df.show()
+------------------+-----------+-----+
| ColA|column_name|value|
+------------------+-----------+-----+
|[val1, val2, val3]| Col1| val1|
|[val1, val2, val3]| Col2| val2|
|[val1, val2, val3]| Col3| val3|
|[val4, val5, val6]| Col1| val4|
|[val4, val5, val6]| Col2| val5|
|[val4, val5, val6]| Col3| val6|
|[val7, val8, val9]| Col1| val7|
|[val7, val8, val9]| Col2| val8|
|[val7, val8, val9]| Col3| val9|
+------------------+-----------+-----+
作为最后一步,我们将pivot
和 DataFrame 返回,得到最终的 DataFrame。 由于在旋转中我们进行了aggregation
,所以我们在first()
的基础上进行聚合,它采用组的第一个元素。
# Step 2: Pivot it back.
df = df.groupby('ColA').pivot('column_name').agg(first('value')).drop('ColA')
df.show()
+----+----+----+
|Col1|Col2|Col3|
+----+----+----+
|val1|val2|val3|
|val4|val5|val6|
|val7|val8|val9|
+----+----+----+
以下是一些使用map
到 RDD API 或单个 select 表达式的选项。
首先让我们创建一些示例数据并从数据集中的任意行中提取列名。 这里的前提是数据集中的所有项必须具有相同的长度:
from pyspark.sql import Row
df = spark.createDataFrame(
[[["val1", "val2", "val3"]],
[["val4", "val5", "val6"]],
[["val7", "val8", "val9"]]], ["ColA"])
# get the len of the 1st item, the length should be the same for all the items in the dataset
ar_len = len(df.first()["ColA"])
# generate col names
col_names = ["col" + str(i + 1) for i in range(0, ar_len)]
col_names
# ['col1', 'col2', 'col3']
选项1:Map + 排
import pyspark.sql.functions as f
cols = [f.col('ColA').getItem(i).alias(c) for i,c in enumerate(col_names)]
def to_row(l):
# set the columns of the Row
r = Row(*cols)
# set the values of the row that we defined above
r = r(*l[0])
return r
df.rdd.map(to_row).toDF().show()
您应该首先声明与数组项大小相同的cols
列表。 然后使用Row(*cols)
创建所需的Row
模式。 最后,我们使用r(*l[0])
设置先前创建的Row
项目的值。
选项2:Map + 元组
df.rdd.map(lambda l: (*l[0],)).toDF(col_names).show()
在这里,我们简单地将列表中的所有项目解包到一个新的元组中。
选项3:select 语句
import pyspark.sql.functions as f
cols = [f.col('ColA').getItem(i).alias(c) for i,c in enumerate(col_names)]
df.select(*cols).show()
Output:
+----+----+----+
|col1|col2|col3|
+----+----+----+
|val1|val2|val3|
|val4|val5|val6|
|val7|val8|val9|
+----+----+----+
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.