使用pandas從許多文件創建大型數據庫

Question

我有很多文件（~2,000,000）由另一個程序生成，我需要從中提取數據。 這些文件具有不同方法的不同值的公共索引，我不知道如何很好地表達這一點，所以這里是一個三維示例：

[x1,y1,z1,method1]
[x1,y1,z1,method2]
[x2,y2,z2,method1]
[x2,y2,z2,method2]

最終我想要的是一個像這樣的pandas數據框：

    x   y   z  method1  method2 ... methodn
0  x1  y1  z1     data     data        data
1  x2  y2  z2     data     data        data
2  x3  y3  z3      NaN     data        data
3  x4  y4  z4     data      NaN        data
...
n  xn  yn  zn     data      NaN        NaN

方法中會有一些漏洞，數據不對齊。

以下顯示了偽代碼：

file_list=glob.glob('/scratch/project/*')

method1_list=[]
method2_list=[]
...
methodn_list=[]

#Obtain data in the correct list
for outfile in file_list:
    indices=(#function that obtains indices)
    data=(#function that obtains primary data)

    if method1: method1_list.append([indices,data])
    elif method2: method2_list.append([indices,data])
    ...
    else methodn: methodn_list.append([indices,data])

#Convert list to dataframe
method1_pd=pd.DataFrame(method1_list,columns[indices,method1])
method2_pd=pd.DataFrame(method2_list,columns[indices,method1])
...
methodn_pd=pd.DataFrame(methodn_list,columns[indices,method1])

#Apply multi index
method1=method1.set_index(indices)
method2=method2.set_index(indices)
...
methodn=methodn.set_index(indices)

#Combine data    
out=method1.combine_first(method2)
out=out.combine_first(method3)
...
out=out.combine_first(methodn)

這種方法非常有效，但隨着方法數量的增加，這種方式變得相當繁瑣，而且看起來相當單一。 所以我有以下問題：

有沒有更好的方法以這種方式創建DataFrame？ for循環之后的所有內容都已包含在定義中，但它在這里沒有幫助。 我仍然需要說明每種方法三次。
如果我想更新數據集，是否有一種簡單的方法可以省略已讀取的文件？
有沒有更好的方法以這種方式對齊熊貓數據？

Answer 1

這樣的事情可能有用，但取決於你的數據實際構建方式。 如果您能提供樣品，可能會有所幫助。 它假設您的指數已知（或隨時計算）

from collections import defaultdict
file_list = glob.glob('/scratch/project/*')

methods = defaultdict([])
for outfile in file_list:
    #indices = (#function that obtains indices)
    #data    = (#function that obtains primary data)

    methods[method].append([indices,data])

frames = [ DataFrame(method_list,columns[indices,method]) 
         for method, method_list in methods.items() ]

# concat
combine_frame = pd.concat(frames,axis=1)

# set your combined index
result = combine_frame.set_index(indicies)

Answer 2

也許連接每個文件/框架並從最終的DataFrame創建一個數據透視表？

df1 = pd.read_csv(StringIO("""\
x,y,z,data
x1,y1,z1,1
x2,y2,z2,1
"""), sep=',')
df2 = pd.read_csv(StringIO("""\
x,y,z,data
x1,y1,z1,2
x2,y2,z2,2
"""), sep=',')
df3 = pd.read_csv(StringIO("""\
x,y,z,data
x3,y2,z2,3
"""), sep=',')
df1['method'] = 'method1'
df2['method'] = 'method2'
df3['method'] = 'method3'
df = pd.concat([df1, df2, df3])

In [17]: df.pivot_table(rows=['x', 'y', 'z'], cols='method', values='data',
...                     aggfunc='first')
Out[17]: 
method    method1  method2  method3
x  y  z                            
x1 y1 z1        1        2      NaN
x2 y2 z2        1        2      NaN
x3 y2 z2      NaN      NaN        3

In [18]: df
Out[18]: 
    x   y   z  data   method
0  x1  y1  z1     1  method1
1  x2  y2  z2     1  method1
0  x1  y1  z1     2  method2
1  x2  y2  z2     2  method2
0  x3  y2  z2     3  method3

使用pandas從許多文件創建大型數據庫

問題描述

2 個解決方案

解決方案1
1 已采納 2013-03-28 13:14:07

解決方案2
1 2013-03-28 14:39:28

使用pandas從許多文件創建大型數據庫

問題描述

2 個解決方案

解決方案1 1 已采納 2013-03-28 13:14:07

解決方案2 1 2013-03-28 14:39:28

解決方案1
1 已采納 2013-03-28 13:14:07

解決方案2
1 2013-03-28 14:39:28