如何刪除 Pyspark Dataframe 中的列中的逗號

Question

大家好，感謝您花時間幫助我，

現在我已經將 csv 上傳到 spark 中，dataframe 的類型是pyspark.sql.dataframe.DataFrame

我有一列數字（雖然在這種情況下是字符串）。 它們是像6,000這樣的數字，我只想從這些數字中刪除所有逗號。 我試過df.select("col").replace(',', '')和df.withColumn('col', regexp_replace('col', ',', '')但似乎出現錯誤“DataFrame Object 不支持項目分配”

有任何想法嗎？ 我對 Spark 很陌生

Answer 1

你應該真正投射它：

from pyspark.sql.types import IntegerType
df = df.withColumn("col", df["col"].cast(IntegerType()))

如何刪除 Pyspark Dataframe 中的列中的逗號

問題描述

1 個解決方案

解決方案1
1 2022-03-02 16:29:06

如何刪除 Pyspark Dataframe 中的列中的逗號

問題描述

1 個解決方案

解決方案1 1 2022-03-02 16:29:06

解決方案1
1 2022-03-02 16:29:06