簡體   English   中英

將 spark DataFrame 保存為 Parquet 的問題

[英]Problem with saving spark DataFrame as Parquet

我正在嘗試將 DataFrame 保存為 Parquet 文件的路徑。 問題是:display() 函數在“Prop_0”中顯示了一堆結果,但是每當我嘗試保存它們時,只有第一個被轉換並進入路徑。

我正在使用的代碼是:

dbutils.fs.rm(Path_1, True)
avroFile = spark.read.format('com.databricks.spark.avro').load(Path_1)
avroFile.write.mode("overwrite").save(Path_2, format="parquet") 

這是預期的行為,Spark 使用 Hadoop 文件格式,並且這種文件格式需要對數據進行分區 - 這就是您擁有部分文件的原因。

我可以毫無問題地運行上面的代碼。

在此處輸入圖片說明

您可以使用以下方法將 spark DataFrame 保存為鑲木地板文件。

在此處輸入圖片說明

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM