[英]Rename or give alias to Python Spark dataframe column names
我正在使用PySpark 2.4.3,並且有一個要寫入Parquet的數據框,但是列名中有空格,例如Hour of day
。
df = spark.read.csv("file.csv", header=True)
df.write.parquet('input-parquet/')
我目前收到此錯誤:
An error occurred while calling o425.parquet.
: org.apache.spark.sql.AnalysisException: Attribute name "Hour of day" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.;
我該如何重命名列或為它們賦予別名以能夠寫入Parquet?
您可以使用withColumnRenamed(existing, new)
方法重命名該列,然后寫入鑲木地板。 就像這樣:
df.withColumnRenamed('Hour of day', 'Hour')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.