簡體   English   中英

Azure Databricks 筆記本中的 Pandas 缺少 read_parquet function

[英]Pandas missing read_parquet function in Azure Databricks Notebook

當我使用 pandas 讀取 databricks 筆記本中的鑲木地板文件時,發生以下錯誤:AttributeError:模塊'pandas'沒有屬性'read_parquet'。 嘗試在我的集群上安裝最新版本的 pandas 但仍然沒有變化。 關於如何解決它的任何想法?

To read parquet format file in Azure Databricks notebook, you should directly use the class pyspark.sql.DataFrameReader to do that to load data as a PySpark dataframe, not use pandas .

這是代碼示例。

df = spark.read.format("parquet").load('<the path of your parquet file>')

或者

df = spark.read.parquet('<the path of your parquet file>')

If you want to get pandas dataframe from PySpark dataframe, you can use the function toPandas() of a PySpark dataframe below.

pdf = df.toPandas()

更新:我通過下面的代碼檢查了默認 Azure databricks 筆記本中的pandas版本,我發現它是0.19.2

在此處輸入圖像描述

所以你必須升級pandas版本大於等於0.21.x這是第一個支持read_parquet function 的版本從pandas/io/parquet.py如下圖。

在此處輸入圖像描述

要在您的databricks集群中升級pandas ,請按照databricks官方文檔Databricks UtilitiesLibrary utilities部分安裝不同版本的pandas ZEFE90A8E604A7C840E88D03A687F6B7D,代碼如下。

dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()

在此處輸入圖像描述

然后你可以使用read_parquet作為 pandas 官方文件說。

在此處輸入圖像描述

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM