簡體   English   中英

重命名或給Python Spark Dataframe列名稱起別名

[英]Rename or give alias to Python Spark dataframe column names

我正在使用PySpark 2.4.3,並且有一個要寫入Parquet的數據框,但是列名中有空格,例如Hour of day

df = spark.read.csv("file.csv", header=True)
df.write.parquet('input-parquet/')

我目前收到此錯誤:

An error occurred while calling o425.parquet.
: org.apache.spark.sql.AnalysisException: Attribute name "Hour of day" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.;

我該如何重命名列或為它們賦予別名以能夠寫入Parquet?

您可以使用withColumnRenamed(existing, new)方法重命名該列,然后寫入鑲木地板。 就像這樣:

df.withColumnRenamed('Hour of day', 'Hour')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM