Azure Databricks - 將 Parquet 文件讀入 DataFrames

Question

我是 Python 的新手......試圖從 Databricks 讀取鑲木地板文件，但是當文件為空時會引發錯誤。 如何在將文件讀入 DataFrame 之前檢查文件大小。 下面的代碼：

%python

##check if file is empty ???
##if not empty read
##else do something else

try:
   parquetDF =              
   spark.read.parquet("wasbs://XXXXX@XXXX.blob.core.windows.net/XXXX/2019-10- 11/account.parquet")
except:
   print('File is Empty !!!')

Answer 1

現在我正在做如下處理

%python
import pandas as pd
data = {
    'Dummy': ['Dummy'], 
}
parquetDF = pd.DataFrame(data)
try:
  parquetDF = spark.read.parquet("wasbs://XXXXX@XXXXX.blob.core.windows.net/XXXXX/2019-10-11/account.parquet")
except:
  print('Empty File!!!')
if (parquetDF.columns[0] == 'Dummy'):
  print('Do Nothing !!!!')
else:
  print('Do Something !!!')

創建虛擬 DataFrame，然后嘗試使用鑲木地板數據加載 DataFrame。 如果任何異常/源文件為空 DF 將不會被加載。 然后檢查是否加載了DF並進行相應處理。

還嘗試讀取文件大小，但出現異常“沒有這樣的文件或目錄”

%python
import os
statinfo = os.stat("wasbs://XXXXX@XXXXX.blob.core.windows.net/XXXXX/2019-10-11/account.parquet")
statinfo

Azure Databricks - 將 Parquet 文件讀入 DataFrames

問題描述

1 個解決方案

解決方案1
0 2019-10-15 23:58:33

Azure Databricks - 將 Parquet 文件讀入 DataFrames

問題描述

1 個解決方案

解決方案1 0 2019-10-15 23:58:33

解決方案1
0 2019-10-15 23:58:33