如何在Databricks pyspark中導入Excel文件

Question

我正在嘗試將我的excel文件導入Azure-DataBricks機器中的PySpark，必須將其移至PySpark Dataframe。 我無法執行此操作。 遇到錯誤

import pandas
data = pandas.read_excel('/dbfs/FileStore/tables/Time_Payments.xlsx')
df_data = sqlContext.createDataFrame(data)

執行上述動作時，出現以下錯誤。

Error : field Additional Information: Can not merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'>

在這里需要您的幫助。

Answer 1

此問題是由於您的Excel文件包含內部具有不同類型的列（例如數字和字符串）或某些值是空的，因此在將其轉換為熊貓數據框時會用“ NaN”填充空白例如數字列。 當無法推斷架構時，這會引起錯誤。

嘗試使用模式作為參數創建數據框。

例：

#Create PySpark DataFrame Schema
p_schema = StructType([StructField('ADDRESS',StringType(),True),StructField('CITY',StringType(),True),StructField('FIRSTNAME',StringType(),True),StructField('LASTNAME',StringType(),True),StructField('PERSONID',DecimalType(),True)])

#Create Spark DataFrame from Pandas
df_person = sqlContext.createDataFrame(data, p_schema)

但是我會建議使用一個特定的程序包來處理，該程序包將Excel文件直接加載到Spark數據框，而無需通過Panda：

https://github.com/crealytics/spark-excel

如何在Databricks pyspark中導入Excel文件

問題描述

1 個解決方案

解決方案1
1 2018-09-18 09:57:17

如何在Databricks pyspark中導入Excel文件

問題描述

1 個解決方案

解決方案1 1 2018-09-18 09:57:17

解決方案1
1 2018-09-18 09:57:17