簡體   English   中英

列的值為 null 並交換為 pyspark dataframe

[英]Values of the columns are null and swapped in pyspark dataframe

我正在使用 pyspark==2.3.1。 我已經使用 pandas 對數據進行了數據預處理,現在我想將我的預處理 function 從 pandas 轉換為 pyspark。但是在使用 pyspark 讀取數據 CSV 文件時,很多值實際上變成了 85363418 的一些值如果我嘗試對此 dataframe 執行任何操作,那么它會將列的值與其他列交換。 我還嘗試了不同版本的 pyspark。請讓我知道我做錯了什么。 謝謝

來自 pyspark 的結果:

在此處輸入圖像描述

“property_type”列的值有 null 但實際 dataframe 有一些值而不是 null。

CSV 文件: 在此處輸入圖像描述

但是 pyspark 可以很好地處理小數據集。 IE 在此處輸入圖像描述

在我們中,我們遇到了類似的問題。 您需要檢查的事項

  1. 檢查您的數據是否為 " [雙引號] pypark 會認為這是定界符並且數據看起來格式不正確
  2. 檢查您的 csv 數據是否為多行我們通過提及以下配置來處理這種情況

spark.read.options(header=True, inferSchema=True, escape='"').option("multiline",'true').csv(schema_file_location)

您是否限制使用 CSV 文件格式? 試試鑲木地板。 只需使用.to_parquet()而不是.to_csv()將您的 DataFrame 保存在 pandas 中。 Spark 非常適合這種格式。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM