讀取文本文件，並在第一列中將其分為多個基於唯一代碼的文件

Question

讀取文本文件，然后根據文本文件第一列中存在的唯一代碼將其拆分為多個文件-基於第一列中的唯一代碼標識符，每條記錄的列結構都會有所不同。

帶有逗號分隔符的文本文件

Sample input file structure
"05555", "AB", "CC", "DD", "EE", "USA"
"05555", "AB", "CC", "DD", "EE", "CA"
"05555", "AB", "CC", "DD", "EE", "NY"
"0666666", "AB", "CC", "DD", "EE", "NY", "123", "567", "888"
"0666666", "AB", "CC", "DD", "EE", "USA", "123", "567", "999"

我想根據第一列中的唯一代碼標識符將上述文本文件拆分為文本文件。

預期兩個文件的數據如下

File1
"05555", "AB", "CC", "DD", "EE", "USA"
"05555", "AB", "CC", "DD", "EE", "CA"
"05555", "AB", "CC", "DD", "EE", "NY"

file2
"0666666", "AB", "CC", "DD", "EE", "NY", "123", "567", "888"
"0666666", "AB", "CC", "DD", "EE", "USA", "123", "567", "999"

注意：由於每個代碼標識符的結構不同，因此我無法將數據讀取到pandas數據幀中

Answer 1

您的問題包括兩部分：首先讀取具有不平衡行的文件，然后將數據幀拆分為sub-dfs

import pandas, io

data = io.StringIO('''"05555", "AB", "CC", "DD", "EE", "USA"
"05555", "AB", "CC", "DD", "EE", "CA"
"05555", "AB", "CC", "DD", "EE", "NY"
"0666666", "AB", "CC", "DD", "EE", "NY", "123", "567", "888"
"0666666", "AB", "CC", "DD", "EE", "USA", "123", "567", "999"
''')
df = pd.read_csv(data,sep=';',header=None)
s=df[0].str.split(',',expand=True)
s=s.apply(lambda x : x.str.strip(' "'),1)
for x , y in s.groupby(0):
    print(y.dropna(1))
    y.dropna(1).to_csv(str(x)+'.csv')
       0   1   2   3   4    5
0  05555  AB  CC  DD  EE  USA
1  05555  AB  CC  DD  EE   CA
2  05555  AB  CC  DD  EE   NY
         0   1   2   3   4    5    6    7    8
3  0666666  AB  CC  DD  EE   NY  123  567  888
4  0666666  AB  CC  DD  EE  USA  123  567  999

Answer 2

嘗試使用groupby和for循環，然后編寫csv ：

for i, (_, group) in enumerate(df.groupby(df.iloc[:, 0]), 1):
    group.to_csv('File%s' % i)

讀取文本文件，並在第一列中將其分為多個基於唯一代碼的文件

問題描述

2 個解決方案

解決方案1
1 2019-06-19 01:59:58

解決方案2
0 2019-06-19 01:56:15

讀取文本文件，並在第一列中將其分為多個基於唯一代碼的文件

問題描述

2 個解決方案

解決方案1 1 2019-06-19 01:59:58

解決方案2 0 2019-06-19 01:56:15

解決方案1
1 2019-06-19 01:59:58

解決方案2
0 2019-06-19 01:56:15