根据另一列中的分组将 csv 文件 / pandas dataframe 拆分为多个文件

Question

我在名为 list.csv 的 csv 文件中有以下数据集，它有 2 列和 68 行，

name   group
295h1  groupA
20jca  groupA
....
2919d  groupG
....
2xx9a  groupM

每组有 3-5 个名字。

我想将名称分成他们的组并将文件保存到 csv 文件中，这样。

group-1.csv

295h1
20jca
..

group-13.csv

...
2xx9a

到目前为止，我有以下代码，

import pandas as pd

counter = 1
tlist = []
for idx,row in df.iterrows():
    previousGroup = None
    if row['group'] == previousGroup:
        tlist.append(row['name'])
        previousGroup = row['group']
    else:
        with open(f'group-{counter}'), 'w',) as myfile:
             wr = csv.writer(myfile, quoting=csv.QUOTE_ALL)
             wr.writerow(tlist)
        counter += 1
        tlist = []

但它创建了 68 个空文件，这是 csv 文件的长度。

如何根据我的要求正确拆分此文件？

Answer 1

如果需要改为组名称groupA使用以1开头的数字，请使用：

for i, (_, group) in enumerate(df.groupby('group'), 1):
    group['name'].to_csv(f'group-{i}.csv', index=False)

编辑：对于文件中的第一个值，一个想法是创建MultiIndex ，例如：

for i, (n, group) in enumerate(df.groupby('group'), 1):
    g = group[['name']]
    g.columns = [[n], g.columns]
    #print (g)
    g.to_csv(f'group-{i}.csv', index=False)

Answer 2

您应该使用 pandas groupby 和 pd.to_csv()

grouped = df.groupby('group')
for num, g in grouped:
    name = 'group' + '.csv'
    g.to_csv(name)

根据另一列中的分组将 csv 文件 / pandas dataframe 拆分为多个文件

问题描述

2 个解决方案

解决方案1
1 已采纳 2020-12-22 06:24:32

解决方案2
0 2020-12-22 06:23:55

根据另一列中的分组将 csv 文件 / pandas dataframe 拆分为多个文件

问题描述

2 个解决方案

解决方案1 1 已采纳 2020-12-22 06:24:32

解决方案2 0 2020-12-22 06:23:55

解决方案1
1 已采纳 2020-12-22 06:24:32

解决方案2
0 2020-12-22 06:23:55