如何在 spark DataFrame 中將多個浮點列連接到一個 ArrayType(FloatType()) 中？

Question

讀入 CSV 文件后，我有一個帶有許多浮點列的 spark DataFrame 。

我想將所有浮點列組合成一個ArrayType(FloatType()) 。

任何想法如何使用 PySpark（或 Scala）做到這一點？

Answer 1

如果您知道所有浮點列名稱。 你可以試試這個（scala）

val names = Seq("float_col1", "float_col2","float_col3"...."float_col10");
df.withColumn("combined", array(names.map(frame(_)):_*))

Answer 2

這是 Scala 中的另一個版本：

data.printSchema

root
 |-- Int_Col1: integer (nullable = false)
 |-- Str_Col1: string (nullable = true)
 |-- Float_Col1: float (nullable = false)
 |-- Float_Col2: float (nullable = false)
 |-- Str_Col2: string (nullable = true)
 |-- Float_Col3: float (nullable = false)

data.show()

+--------+--------+----------+----------+--------+----------+
|Int_Col1|Str_Col1|Float_Col1|Float_Col2|Str_Col2|Float_Col3|
+--------+--------+----------+----------+--------+----------+
|       1|     ABC|     10.99|     20.99|       a|      9.99|
|       2|     XYZ|  999.1343|    9858.1|       b|    488.99|
+--------+--------+----------+----------+--------+----------+

添加一個新的array<float>字段以連接所有float值。

val df = data.withColumn("Float_Arr_Col",array().cast("array<float>"))

然后過濾所需的數據類型並使用foldLeft連接浮點列

df.dtypes
.collect{ case (dn, dt) if dt.startsWith("FloatType") => dn }
.foldLeft(df)((accDF, c) => accDF.withColumn("Float_Arr_Col", 
                                             array_union(col("Float_Arr_Col"),array(col(c)))))
.show(false)

輸出：

+--------+--------+----------+----------+--------+----------+--------------------------+
|Int_Col1|Str_Col1|Float_Col1|Float_Col2|Str_Col2|Float_Col3|Float_Arr_Col             |
+--------+--------+----------+----------+--------+----------+--------------------------+
|1       |ABC     |10.99     |20.99     |a       |9.99      |[10.99, 20.99, 9.99]      |
|2       |XYZ     |999.1343  |9858.1    |b       |488.99    |[999.1343, 9858.1, 488.99]|
+--------+--------+----------+----------+--------+----------+--------------------------+

希望這可以幫助！

Answer 3

找到了解決辦法。 非常簡單，但很難找到。

float_cols = ['_c1', '_c2', '_c3', '_c4', '_c5', '_c6', '_c7', '_c8', '_c9', '_c10']

df.withColumn('combined', array([col(c) for c in float_cols]))

如何在 spark DataFrame 中將多個浮點列連接到一個 ArrayType(FloatType()) 中？

問題描述

3 個解決方案

解決方案1
2 2019-02-26 02:10:40

解決方案2
1 2019-02-26 05:56:58

解決方案3
0 2019-02-26 03:06:20

如何在 spark DataFrame 中將多個浮點列連接到一個 ArrayType(FloatType()) 中？

問題描述

3 個解決方案

解決方案1 2 2019-02-26 02:10:40

解決方案2 1 2019-02-26 05:56:58

解決方案3 0 2019-02-26 03:06:20

解決方案1
2 2019-02-26 02:10:40

解決方案2
1 2019-02-26 05:56:58

解決方案3
0 2019-02-26 03:06:20