在具有路徑引用的數百個 excel 文件上添加新列到一個 pandas dataframe

Question

我可能有成百上千個帶括號的小 excel 文件 pandas dataframe

在我合並它們之前，我需要給出它們來自哪個類別的標志

這是我的參考表df

    Dataframe_name      Path                                 Sheet
45  finance_auditing    Finance - Accounting/TopSites-Fin... Aggregated_Data_for_Time_Period
46  finance_lending     Finance - Banking/TopSites-...          Aggregated_Data_for_Time_Period

我所做Dataframe_name名稱列是手動填充的，但我期望的是使用引用表

finance_auditing  = pd.read_excel('Finance - Accounting/TopSites-Fin... ','Aggregated_Data_for_Time_Period')
finance_lending   = pd.read_excel('Finance - Banking/TopSites-... ','Aggregated_Data_for_Time_Period')
finance_auditing['Dataframe_name'] = 'finance_auditing'
finance_lending['Dataframe_name'] = 'finance_lending'
dF_all = pd.concat([pd.read_excel(path, sheet_name=sheet) 
           for path, sheet in zip(df.Path, df.Sheet)])

問題是我有數百個文件要讀取，需要全部讀取 append

Answer 1

這將相當簡單，您可以為每次迭代動態assign標志：

pd.concat([pd.read_excel(path, sheet_name=sheet).assign(df_name=name)
                             for name, path, sheet in df.to_numpy()])

在具有路徑引用的數百個 excel 文件上添加新列到一個 pandas dataframe

問題描述

1 個解決方案

解決方案1
1 已采納 2022-05-17 06:33:20

在具有路徑引用的數百個 excel 文件上添加新列到一個 pandas dataframe

問題描述

1 個解決方案

解決方案1 1 已采納 2022-05-17 06:33:20

解決方案1
1 已采納 2022-05-17 06:33:20