Azure Databricks 筆記本中的 Pandas 缺少 read_parquet function

Question

當我使用 pandas 讀取 databricks 筆記本中的鑲木地板文件時，發生以下錯誤：AttributeError：模塊'pandas'沒有屬性'read_parquet'。 嘗試在我的集群上安裝最新版本的 pandas 但仍然沒有變化。 關於如何解決它的任何想法？

Answer 1

To read parquet format file in Azure Databricks notebook, you should directly use the class pyspark.sql.DataFrameReader to do that to load data as a PySpark dataframe, not use pandas .

這是代碼示例。

df = spark.read.format("parquet").load('<the path of your parquet file>')

或者

df = spark.read.parquet('<the path of your parquet file>')

If you want to get pandas dataframe from PySpark dataframe, you can use the function toPandas() of a PySpark dataframe below.

pdf = df.toPandas()

更新：我通過下面的代碼檢查了默認 Azure databricks 筆記本中的pandas版本，我發現它是0.19.2 。

所以你必須升級pandas版本大於等於0.21.x這是第一個支持read_parquet function 的版本從pandas/io/parquet.py如下圖。

要在您的databricks集群中升級pandas ，請按照databricks官方文檔Databricks Utilities的Library utilities部分安裝不同版本的pandas ZEFE90A8E604A7C840E88D03A687F6B7D，代碼如下。

dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()

然后你可以使用read_parquet作為 pandas 官方文件說。

Azure Databricks 筆記本中的 Pandas 缺少 read_parquet function

問題描述

1 個解決方案

解決方案1
1 已采納 2019-11-22 00:43:02

Azure Databricks 筆記本中的 Pandas 缺少 read_parquet function

問題描述

1 個解決方案

解決方案1 1 已采納 2019-11-22 00:43:02

解決方案1
1 已采納 2019-11-22 00:43:02