匹配列並附加到數據框，Python 3.6

Question

我有大約50個excel文件，我想導入到dataframe並將所有文件合並到單個數據幀中。 但有些文件有3個，有些是4列。 每個文件作為不同的列以不同的順序。

所有文件中的不同列總數：5即col1，col2，col3，col4，col5

我知道如何導入，但在面臨問題的同時。

腳本：

dfAll = pd.DataFrame(columns=['col1', 'col2', 'col3', 'col4', 'col5')]
df= pd.read_excel('FilePath', sheetname='data1') # contains 3 columns i.e col1, col2, col5
columnsOFdf = df.columns
dfAll[columnsOFdf] = dfAll.append(df)

但是給出錯誤“ValueError：Columns必須和key一樣長”

我想將df ['col1'，'col2'，'col5']數據追加到dfAll ['col1'，'col2'，'col5']

請幫忙解決這個問題。

Answer 1

連接將匹配您的列

dfs = []
files = [...]
for file_name in files:
    dfs.append(pd.read_excel(file_name, sheetname='data1'))
df = pd.concat(dfs)

df1 = pd.DataFrame(np.random.randn(3, 3), columns=list('ABC'))
df2 = pd.DataFrame(np.random.randn(3, 3), columns=list('BCD'))
>>> pd.concat([df1, df2])
          A         B         C         D
0 -2.329280  0.644155 -0.835137       NaN
1  0.666496 -1.299048  0.111579       NaN
2  1.855494 -0.085850 -0.541890       NaN
0       NaN -1.131514  1.023610 -0.514384
1       NaN  0.670063  1.403143 -0.978611
2       NaN -0.314741 -0.727200 -0.620511

此外，每次將數據框附加到現有數據框時，它都會返回一個副本。 這將嚴重降低性能並被稱為二次復制。 您最好創建所有數據幀的列表，然后連接結果。

Answer 2

試試這個：

[dfAll.append(i) for i in df]

我希望這對你有幫助。

Answer 3

一種解決方案是將空列添加到從Excel文件加載的數據框中：

columns = ['col1', 'col2', 'col3', 'col4', 'col5']
dfAll = pd.DataFrame(columns=columns)
df= pd.read_excel('FilePath', sheetname='data1') # contains 3 columns i.e             col1, col2, col5
columnsOFdf = df.columns
for column in columns:
    if column not in columnsOFdf:
        df[column] = [""] * df.shape[0]
dfAll.append(df)

匹配列並附加到數據框，Python 3.6

問題描述

3 個解決方案

解決方案1
3 已采納 2017-09-06 14:14:10

解決方案2
2 2017-09-06 14:11:52

解決方案3
1 2017-09-06 14:10:08

匹配列並附加到數據框，Python 3.6

問題描述

3 個解決方案

解決方案1 3 已采納 2017-09-06 14:14:10

解決方案2 2 2017-09-06 14:11:52

解決方案3 1 2017-09-06 14:10:08

解決方案1
3 已采納 2017-09-06 14:14:10

解決方案2
2 2017-09-06 14:11:52

解決方案3
1 2017-09-06 14:10:08