在PySpark中將StringType轉換為ArrayType

Question

我正在嘗試在數據集上的PySpark中運行FPGrowth算法。

from pyspark.ml.fpm import FPGrowth

fpGrowth = FPGrowth(itemsCol="name", minSupport=0.5,minConfidence=0.6) 
model = fpGrowth.fit(df)

我收到以下錯誤：

An error occurred while calling o2139.fit.
: java.lang.IllegalArgumentException: requirement failed: The input 
column must be ArrayType, but got StringType.
at scala.Predef$.require(Predef.scala:224)

我的Dataframe df的格式為：

df.show(2)

+---+---------+--------------------+
| id|     name|               actor|
+---+---------+--------------------+
|  0|['ab,df']|                 tom|
|  1|['rs,ce']|                brad|
+---+---------+--------------------+
only showing top 2 rows

如果我在“名稱”列中的數據采用以下格式，則FP算法有效：

 name
[ab,df]
[rs,ce]

我如何以這種形式將其從StringType轉換為ArrayType

我從RDD中形成了Dataframe：

rd2=rd.map(lambda x: (x[1], x[0][0] , [x[0][1]]))

rd3 = rd2.map(lambda p:Row(id=int(p[0]),name=str(p[2]),actor=str(p[1])))
df = spark.createDataFrame(rd3)

rd2.take(2):

[(0, 'tom', ['ab,df']), (1, 'brad', ['rs,ce'])]

Answer 1

為數據框name列中的每一行用逗號分隔。 例如

from pyspark.sql.functions import pandas_udf, PandasUDFType

@pandas_udf('list', PandasUDFType.SCALAR)
def split_comma(v):
    return v[1:-1].split(',')

df.withColumn('name', split_comma(df.name))

或者更好的是，不要推遲。 將名稱直接設置到列表中。

rd2 = rd.map(lambda x: (x[1], x[0][0], x[0][1].split(',')))
rd3 = rd2.map(lambda p:Row(id=int(p[0]), name=p[2], actor=str(p[1])))

Answer 2

根據上一個問題，似乎您在錯誤地構建rdd2 。

嘗試這個：

rd2 = rd.map(lambda x: (x[1], x[0][0] , x[0][1].split(",")))
rd3 = rd2.map(lambda p:Row(id=int(p[0]), name=p[2], actor=str(p[1])))

str.split(",")的更改是，我們在x[0][1]上調用str.split(",") ，以便它將類似'a，b'的字符串轉換為列表： ['a', 'b'] 。

在PySpark中將StringType轉換為ArrayType

問題描述

2 個解決方案

解決方案1
4 已采納 2018-04-05 21:54:54

解決方案2
1 2018-04-05 21:58:01

在PySpark中將StringType轉換為ArrayType

問題描述

2 個解決方案

解決方案1 4 已采納 2018-04-05 21:54:54

解決方案2 1 2018-04-05 21:58:01

解決方案1
4 已采納 2018-04-05 21:54:54

解決方案2
1 2018-04-05 21:58:01