[英]Pandas missing read_parquet function in Azure Databricks Notebook
當我使用 pandas 讀取 databricks 筆記本中的鑲木地板文件時,發生以下錯誤:AttributeError:模塊'pandas'沒有屬性'read_parquet'。 嘗試在我的集群上安裝最新版本的 pandas 但仍然沒有變化。 關於如何解決它的任何想法?
To read parquet format file in Azure Databricks notebook, you should directly use the class pyspark.sql.DataFrameReader
to do that to load data as a PySpark dataframe, not use pandas
.
這是代碼示例。
df = spark.read.format("parquet").load('<the path of your parquet file>')
或者
df = spark.read.parquet('<the path of your parquet file>')
If you want to get pandas dataframe from PySpark dataframe, you can use the function toPandas()
of a PySpark dataframe below.
pdf = df.toPandas()
更新:我通過下面的代碼檢查了默認 Azure databricks 筆記本中的pandas
版本,我發現它是0.19.2
。
所以你必須升級pandas
版本大於等於0.21.x
這是第一個支持read_parquet
function 的版本從pandas/io/parquet.py
如下圖。
要在您的databricks集群中升級pandas
,請按照databricks官方文檔Databricks Utilities
的Library utilities
部分安裝不同版本的pandas
ZEFE90A8E604A7C840E88D03A687F6B7D,代碼如下。
dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()
然后你可以使用read_parquet
作為 pandas 官方文件說。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.