[英]Aggregating multiple excel files in python - list indexing error with pd.read_excel
我正在嘗試聚合多個文件:
import glob
import pandas as pd
import time
list_of_files = glob.glob('../data/*.xlsx')
frame = pd.DataFrame()
list_ = []
for file_ in list_of_files:
df = pd.read_excel(file_, ignore_index=True)
list_.append(df)
frame = pd.concat(list_)
但我給出了以下錯誤:
我的文件列表似乎還可以:
['../data/Chat Transcript Report 1.xlsx',
'../data/Chat Transcript Report2.xlsx',
'../data/Chat Transcript Report3.xlsx',
'../data/Chat Transcript Report.xlsx']
但是錯誤似乎可以追溯到read_excel行,但是我不確定索引的問題是什么。 任何建議將不勝感激!
熊貓索引沒有錯。 也有一些是錯誤的,或不兼容,與您的Excel文件。 這又拿出了至少兩三次(見圖1 , 2 )。 該問題可能與行不整齊 (請參閱xlrd issue:ragged_rows )或Excel文件存在其他問題有關。
我建議您首先確定問題工作表:
for file_ in list_of_files:
try:
df = pd.read_excel(file_, ignore_index=True)
list_.append(df)
except IndexError:
print(file_)
然后打開打印的file_
,將其內容復制到另一個工作簿,然后使用新工作簿重試。 如果xlrd
,則表明第一個工作簿的某個方面與xlrd
不兼容,熊貓已使用xlrd
從Excel讀取數據。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.