[英]Creating pandas database from multiple excel template files - python 3
[英]Creating a large database from many files with pandas
我有很多文件(~2,000,000)由另一個程序生成,我需要從中提取數據。 這些文件具有不同方法的不同值的公共索引,我不知道如何很好地表達這一點,所以這里是一個三維示例:
[x1,y1,z1,method1]
[x1,y1,z1,method2]
[x2,y2,z2,method1]
[x2,y2,z2,method2]
最終我想要的是一個像這樣的pandas數據框:
x y z method1 method2 ... methodn
0 x1 y1 z1 data data data
1 x2 y2 z2 data data data
2 x3 y3 z3 NaN data data
3 x4 y4 z4 data NaN data
...
n xn yn zn data NaN NaN
方法中會有一些漏洞,數據不對齊。
以下顯示了偽代碼:
file_list=glob.glob('/scratch/project/*')
method1_list=[]
method2_list=[]
...
methodn_list=[]
#Obtain data in the correct list
for outfile in file_list:
indices=(#function that obtains indices)
data=(#function that obtains primary data)
if method1: method1_list.append([indices,data])
elif method2: method2_list.append([indices,data])
...
else methodn: methodn_list.append([indices,data])
#Convert list to dataframe
method1_pd=pd.DataFrame(method1_list,columns[indices,method1])
method2_pd=pd.DataFrame(method2_list,columns[indices,method1])
...
methodn_pd=pd.DataFrame(methodn_list,columns[indices,method1])
#Apply multi index
method1=method1.set_index(indices)
method2=method2.set_index(indices)
...
methodn=methodn.set_index(indices)
#Combine data
out=method1.combine_first(method2)
out=out.combine_first(method3)
...
out=out.combine_first(methodn)
這種方法非常有效,但隨着方法數量的增加,這種方式變得相當繁瑣,而且看起來相當單一。 所以我有以下問題:
這樣的事情可能有用,但取決於你的數據實際構建方式。 如果您能提供樣品,可能會有所幫助。 它假設您的指數已知(或隨時計算)
from collections import defaultdict
file_list = glob.glob('/scratch/project/*')
methods = defaultdict([])
for outfile in file_list:
#indices = (#function that obtains indices)
#data = (#function that obtains primary data)
methods[method].append([indices,data])
frames = [ DataFrame(method_list,columns[indices,method])
for method, method_list in methods.items() ]
# concat
combine_frame = pd.concat(frames,axis=1)
# set your combined index
result = combine_frame.set_index(indicies)
也許連接每個文件/框架並從最終的DataFrame創建一個數據透視表?
df1 = pd.read_csv(StringIO("""\
x,y,z,data
x1,y1,z1,1
x2,y2,z2,1
"""), sep=',')
df2 = pd.read_csv(StringIO("""\
x,y,z,data
x1,y1,z1,2
x2,y2,z2,2
"""), sep=',')
df3 = pd.read_csv(StringIO("""\
x,y,z,data
x3,y2,z2,3
"""), sep=',')
df1['method'] = 'method1'
df2['method'] = 'method2'
df3['method'] = 'method3'
df = pd.concat([df1, df2, df3])
In [17]: df.pivot_table(rows=['x', 'y', 'z'], cols='method', values='data',
... aggfunc='first')
Out[17]:
method method1 method2 method3
x y z
x1 y1 z1 1 2 NaN
x2 y2 z2 1 2 NaN
x3 y2 z2 NaN NaN 3
In [18]: df
Out[18]:
x y z data method
0 x1 y1 z1 1 method1
1 x2 y2 z2 1 method1
0 x1 y1 z1 2 method2
1 x2 y2 z2 2 method2
0 x3 y2 z2 3 method3
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.