將多個csv文件導入pandas並合並為一個DataFrame

Question

我有多個 csv 文件（每個文件包含 N 行（例如，1000 行）和 43 列） 。

我想從一個文件夾中讀取幾個 csv 文件到 pandas 並將它們合並到一個 DataFrame 中。

我一直無法弄清楚。

問題在於， DataFrame 的最終 output （即 frame = pd.concat frame = pd.concat(li, axis=0, ignore_index=True) ）將所有列（即43 列）合並為一列（見附圖）的代碼

所選行和列的示例（文件一）

               Client_ID    Client_Name  Pointer_of_Bins   Date        Weight
                C0000001       POLYGONE      TI006093     12/03/2019   0.5
                C0000001       POLYGONE      TI006093     12/03/2019   0.6
                C0000001       POLYGONE      TI006093     12/03/2019   1.4
                C0000001       POLYGONE      TI006897     14/03/2019   2.9

an example of selected rows and columns (file two) Client_ID Client_Name Pointer_of_Bins Date Weight C0000001 POLYGONE TI006093 22/04/2019 1.5 C0000001 ALDI TI006098 22/04/2019 0.7 C0000001 ALDI TI006098 22/04/2019 2.4 C0000001 ALDI TI006898 24/04/ 2019 1.9

預期的輸出將如下所示（合並可能包含數千行和數列的多個文件，因為附加的數據只是一個示例，而實際的 csv 文件可能在每個文件中包含數千行和超過 45 列）

               Client_ID    Client_Name  Pointer_of_Bins   Date        Weight
                C0000001       POLYGONE      TI006093     12/03/2019   0.5
                C0000001       POLYGONE      TI006093     12/03/2019   0.6
                C0000001       POLYGONE      TI006093     12/03/2019   1.4
                C0000001       POLYGONE      TI006897     14/03/2019   2.9   
                C0000001       POLYGONE      TI006093     22/04/2019   1.5
                C0000001       ALDI          TI006098     22/04/2019   0.7
                C0000001       ALDI          TI006098     22/04/2019   2.4
                C0000001       ALDI          TI006898     24/04/2019   1.9

要下載兩個 CSV 文件，請單擊此處（虛擬數據

這是我到目前為止所做的：

import pandas as pd
import glob
path = r'C:\Users\alnaffakh\Desktop\doc\Data\data2\Test'
all_files = glob.glob(path + "/*.csv")
li = []
for filename in all_files:
    df = pd.read_csv(filename, sep='delimiter', index_col=None, header=0)
  # df = pd.read_csv(filename, sep='\t', index_col=None, header=0)
    li.append(df)
frame = pd.concat(li, axis=0, ignore_index=True)

Answer 1

解決方案

您可以使用pandas.concat遞歸連接.csv文件內容。
事實上，我看到您使用了它，並且您的concat應用程序對我來說似乎很好。 嘗試調查您閱讀的各個數據幀。 如果您沒有提及正確的分隔符，您的列可以合並為單個列的唯一方法。

import pandas as pd

dfs = list()
for filename in filesnames:    
    df = pd.read_csv(filename)    
    dfs.append(df)
frame = pd.concat(dfs, axis=0, ignore_index=True)
df.head()

虛擬數據示例

由於可用的虛擬數據還不是文本格式，我只使用我制作的一些虛擬數據。

import pandas as pd
from io import StringIO # needed for string to dataframe conversion

file1 = """
Col1    Col2    Col3    Col4    Col5
1   ABCDE   AE10    CD11    BC101F
2   GHJKL   GL20    JK22    HJ202M
3   MNPKU   MU30    PK33    NP303V
4   OPGHD   OD40    GH44    PG404E
5   BHZKL   BL50    ZK55    HZ505M
"""

file2 = """
Col1    Col2    Col3    Col4    Col5
1   AZYDE   AE10    CD11    BC100F
2   GUFKL   GL24    JK22    HJ207M
3   MHPRU   MU77    PK39    NP309V
4   OPGBB   OE90    GH41    PG405N
5   BHTGK   BL70    ZK53    HZ508Z
"""

將數據加載為單獨的數據幀，然后將它們連接起來。

df1 = pd.read_csv(StringIO(file1), sep='\t')
df2 = pd.read_csv(StringIO(file2), sep='\t')
print(pd.concat([df1, df2], ignore_index=True))

Output ：

   Col1   Col2  Col3  Col4    Col5
0     1  ABCDE  AE10  CD11  BC101F
1     2  GHJKL  GL20  JK22  HJ202M
2     3  MNPKU  MU30  PK33  NP303V
3     4  OPGHD  OD40  GH44  PG404E
4     5  BHZKL  BL50  ZK55  HZ505M
5     1  AZYDE  AE10  CD11  BC100F
6     2  GUFKL  GL24  JK22  HJ207M
7     3  MHPRU  MU77  PK39  NP309V
8     4  OPGBB  OE90  GH41  PG405N
9     5  BHTGK  BL70  ZK53  HZ508Z

將多個csv文件導入pandas並合並為一個DataFrame

問題描述

1 個解決方案

解決方案1
2 已采納 2019-10-07 17:29:27

解決方案

虛擬數據示例

將多個csv文件導入pandas並合並為一個DataFrame

問題描述

1 個解決方案

解決方案1 2 已采納 2019-10-07 17:29:27

解決方案

虛擬數據示例

解決方案1
2 已采納 2019-10-07 17:29:27