如何在 PySpark 中將數據框列從 String 類型更改為 Double 類型？

Question

我有一個列為字符串的數據框。 我想在 PySpark 中將列類型更改為 Double 類型。

以下是我做的方式：

toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType())
changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show']))

只是想知道，這是正確的方法嗎，因為在運行邏輯回歸時，我遇到了一些錯誤，所以我想知道，這是否是造成麻煩的原因。

Answer 1

這里不需要 UDF。 Column已經提供了帶有DataType實例的cast方法：

from pyspark.sql.types import DoubleType

changedTypedf = joindf.withColumn("label", joindf["show"].cast(DoubleType()))

或短字符串：

changedTypedf = joindf.withColumn("label", joindf["show"].cast("double"))

其中規范的字符串名稱（也可以支持其他變體）對應於simpleString值。 所以對於原子類型：

from pyspark.sql import types 

for t in ['BinaryType', 'BooleanType', 'ByteType', 'DateType', 
          'DecimalType', 'DoubleType', 'FloatType', 'IntegerType', 
           'LongType', 'ShortType', 'StringType', 'TimestampType']:
    print(f"{t}: {getattr(types, t)().simpleString()}")

BinaryType: binary
BooleanType: boolean
ByteType: tinyint
DateType: date
DecimalType: decimal(10,0)
DoubleType: double
FloatType: float
IntegerType: int
LongType: bigint
ShortType: smallint
StringType: string
TimestampType: timestamp

例如復雜類型

types.ArrayType(types.IntegerType()).simpleString()

'array<int>'

types.MapType(types.StringType(), types.IntegerType()).simpleString()

'map<string,int>'

Answer 2

通過使用與輸入列相同的名稱，保留列的名稱並避免添加額外的列：

from pyspark.sql.types import DoubleType
changedTypedf = joindf.withColumn("show", joindf["show"].cast(DoubleType()))

Answer 3

給定的答案足以解決問題，但我想分享另一種可能引入新版本 Spark 的方式（我不確定）所以給定的答案沒有抓住它。

我們可以使用col("colum_name")關鍵字訪問 spark 語句中的列：

from pyspark.sql.functions import col
changedTypedf = joindf.withColumn("show", col("show").cast("double"))

Answer 4

PySpark 版本：

df = <source data>
df.printSchema()

from pyspark.sql.types import *

# Change column type
df_new = df.withColumn("myColumn", df["myColumn"].cast(IntegerType()))
df_new.printSchema()
df_new.select("myColumn").show()

Answer 5

解決方案很簡單 -

toDoublefunc = UserDefinedFunction(lambda x: float(x),DoubleType())
changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show']))

Answer 6

其他答案的一個問題（取決於您的 Pyspark 版本）是withColumn的使用。 至少在 v2.4.4 中觀察到了性能問題（請參閱此線程）。 spark 文檔提到了關於withColumn的內容：

這種方法在內部引入了一個投影。 因此，多次調用它（例如，通過循環以添加多個列）可能會生成大計划，從而導致性能問題甚至 StackOverflowException。 為避免這種情況，請同時對多個列使用 select。

一般來說，實現select的推薦用法的一種方法是：

from pyspark.sql.types import *
from pyspark.sql import functions as F

cols_to_fix = ['show']
other_cols = [col for col in joindf.columns if not col in cols_to_fix]
joindf = joindf.select(
    *other_cols,
    F.col('show').cast(DoubleType())
)

如何在 PySpark 中將數據框列從 String 類型更改為 Double 類型？

問題描述

6 個解決方案

解決方案1
254 已采納 2015-08-29 13:15:11

解決方案2
77 2016-07-12 02:16:36

解決方案3
15 2017-10-24 12:13:54

解決方案4
6 2019-10-15 17:45:17

解決方案5
1 2015-08-29 10:31:10

解決方案6
0 2022-11-18 21:53:30

如何在 PySpark 中將數據框列從 String 類型更改為 Double 類型？

問題描述

6 個解決方案

解決方案1 254 已采納 2015-08-29 13:15:11

解決方案2 77 2016-07-12 02:16:36

解決方案3 15 2017-10-24 12:13:54

解決方案4 6 2019-10-15 17:45:17

解決方案5 1 2015-08-29 10:31:10

解決方案6 0 2022-11-18 21:53:30

解決方案1
254 已采納 2015-08-29 13:15:11

解決方案2
77 2016-07-12 02:16:36

解決方案3
15 2017-10-24 12:13:54

解決方案4
6 2019-10-15 17:45:17

解決方案5
1 2015-08-29 10:31:10

解決方案6
0 2022-11-18 21:53:30