[英]pandas DataFrame: normalize one JSON column and merge with other columns
[英]pandas merge as of on one column, exactly on other columns?
我正在嘗試合並 2 個數據as_of
在某些列上精確匹配,在其他列(通常是日期)上使用as_of
匹配。 這篇文章很好地描述了這個意圖(我將復制粘貼下面的主要內容):
上面的帖子已經回答了; 只有它可以追溯到 2016 年,在引入pandas.merge_asof
之前。 我相信現在已經發布了一個更簡單的答案。 殘酷的方法是將每組行的 as_of 合並為我想要完全合並的列的相同值。 但是有更優雅的版本嗎?
所需輸入和輸出的精確描述:
輸入
df1 = pd.DataFrame({'index': ['a1','a2','a3','a4'], 'col1': ['1232','432','432','123'], 'col2': ['asd','dsa12','dsa12','asd2'], 'col3': ['1','2','2','3'], 'date': ['2010-01-23','2016-05-20','2010-06-20','2008-10-21'],}).set_index('index')
df1
Out[430]:
col1 col2 col3 date
index
a1 1232 asd 1 2010-01-23
a2 432 dsa12 2 2016-05-20
a3 432 dsa12 2 2010-06-20
a4 123 asd2 3 2008-10-21
df2 = pd.DataFrame({'index': ['b1','b2','b3','b4'], 'col1': ['132','432','432','123'], 'col2': ['asd','dsa12','dsa12','sd2'], 'col3': ['1','2','2','3'], 'date': ['2010-01-23','2016-05-23','2010-06-10','2008-10-21'],}).set_index('index')
df2
Out[434]:
col1 col2 col3 date b_col
index
b1 132 asd 1 2010-01-23 1
b2 432 dsa12 2 2016-05-23 2
b3 432 dsa12 2 2010-06-10 3
b4 123 sd2 3 2008-10-21 4
輸出:
col1 col2 col3 date b_col
index
a2 432 dsa12 2 2016-05-20 2
a3 432 dsa12 2 2010-06-20 3
注意 1:我需要這樣做的原因是我需要像groupby(...)[...].rolling(...).transform(...)
,但似乎沒有延遲是否存在,除非我遺漏了什么?
注意 2:我想避免計算所有對,然后過濾,因為數據框可能會變得太大。
我試圖更接近你的問題。 但是,我沒有嘗試 merge_asof 而是合並。 我希望這種方法可以幫助您:
import numpy as np
import pandas as pd
df1 = pd.DataFrame({'index': ['a1', 'a2', 'a3', 'a4'], 'col1': ['1232', '432', '432', '123'],
'col2': ['asd', 'dsa12', 'dsa12', 'asd2'], 'col3': ['1', '2', '2', '3'],
'date': ['2010-01-23', '2016-05-20', '2010-06-20', '2008-10-21'],
}).set_index('index')
df2 = pd.DataFrame({'index': ['b1', 'b2', 'b3', 'b4'], 'col1': ['132', '432', '432', '123'],
'col2': ['asd', 'dsa12', 'dsa12', 'sd2'], 'col3': ['1', '2', '2', '3'],
'date': ['2010-01-23', '2016-05-23', '2010-06-10', '2008-10-21'],
}).set_index('index')
columns = ['col1', 'col2', 'col3']
new_dic = pd.merge(df1, df2, on=columns, right_index=True).drop_duplicates(subset=['date_x']).drop(labels='date_y', axis=1)
print(new_dic)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.