使用別名重命名 pyspark 列

Question

我正在嘗試在 Databricks (pyspark) 中導入鑲木地板文件並不斷收到錯誤消息

df = spark.read.parquet(inputFilePath)

AnalysisException:  Column name "('my data (beta)', "Meas'd Qty")" contains invalid character(s). Please use alias to rename it.

我嘗試了這篇文章中的建議，在這篇文章中使用.withColumnRenamed ，還使用了類似的alias

(spark.read.parquet(inputFilePath)).select(col("('my data (beta)', "Meas'd Qty")").alias("col")).show()

但總是得到同樣的錯誤。 我如何通過每一列 go 用下划線_替換任何無效字符，甚至刪除所有無效字符？

Answer 1

舊文件是如何生成的？ 該文件使用 spark 不允許的列名保存。

生成此文件時，最好在源頭解決此問題。

您可以在 spark 中嘗試解決的幾種方法是

在 select 語句中，將列名放在 ``` 下。 喜歡

(spark.read.parquet(inputFilePath)).select(col(`('my data (beta)', "Meas'd Qty")`).alias("col")).show()

嘗試使用toDF重命名

(spark.read.parquet(inputFilePath)).toDF(["col_a", "col_b", ...]).show()

使用別名重命名 pyspark 列

問題描述

1 個解決方案

解決方案1
0 2021-12-15 23:43:44

使用別名重命名 pyspark 列

問題描述

1 個解決方案

解決方案1 0 2021-12-15 23:43:44

解決方案1
0 2021-12-15 23:43:44