[英]Combine two pandas dataframes with two conditionals
我有两个 pandas 数据帧,我想将它们与两个条件的检查结合起来。
数据框1:
import pandas as pd
data = [['Z085', '2020-08', 1.33], ['Z086', '2020-08', 1.83], ['Z086', '2020-09', 1.39]]
df1 = pd.DataFrame(data, columns = ['SN', 'Date', 'Value'])
数据框2:
data = [['Z085', '2020-08', 0.34], ['Z085', '2020-09', 0.83], ['Z086', '2020-09', 0.29]]
df2 = pd.DataFrame(data, columns = ['SN', 'Date', 'ValueX'])
df2
我想合并或 append 或加入它们以获得以下 dataframe:如果“SN”和“Date”相等,则添加值(“Value”和“ValueX”)。
我不确定,如果需要新的 dataframe 或 map,df2 到 df1。
这是我试过的:
df1['ValueX'] = df1[('Date', 'SN')].map(df2_mean.set_index('Date', 'SN')['ValueX'])
使用一个条件(例如:日期)它可以正常工作,但我无法设置两个条件。
这只是一个merge()
操作。 不要将列称为“条件”,只需说“在 SN、日期列上合并”。
但是 pandas (v1.1.4) 有一个错误(它的默认设置是在进行排序时使用相反的键顺序,即“升序”)所以你不能依赖它; 请注意下面它按“日期”然后“SN”排序,即错误的方式:
>>> dfnew_bad = df1.merge(df2, on=['SN','Date'], how='outer')
SN Date Value ValueX
0 Z085 2020-08 1.33 0.34
1 Z086 2020-08 1.83 NaN
2 Z086 2020-09 1.39 0.29
3 Z085 2020-09 NaN 0.83
所以在你的情况下通过 SN 然后 Date 获得正确的订单:
dfnew_good = df1.merge(df2, on=['SN','Date'], how='outer', sort=False).sort_values(['SN', 'Date'])
SN Date Value ValueX
0 Z085 2020-08 1.33 0.34
3 Z085 2020-09 NaN 0.83
1 Z086 2020-08 1.83 NaN
2 Z086 2020-09 1.39 0.29
请注意,有一个标志.sort_values(ascending=True)
但不是pd.merge()
您也可以通过执行pd.merge(..., sort=False)
然后dfnew_workaround.sort_index(..., inplace=True)
来解决
方法一: merge
:
df_new = df1.merge(df2, on=['SN','Date'],how='outer', sort=True)
print(df_new)
方法二: join
:
df_new = df1.join(df2.set_index(['SN','Date']), on=['SN','Date'],how='outer', sort=True)
print(df_new)
在这种情况下,另一种可能的方法是使用pd.concat
:
df_new = pd.concat([df1.set_index(['SN','Date']),df2.set_index(['SN','Date'])],axis=1).reset_index()
Output 在任何一种情况下:
SN Date Value ValueX
0 Z085 2020-08 1.33 0.34
3 Z085 2020-09 NaN 0.83
1 Z086 2020-08 1.83 NaN
2 Z086 2020-09 1.39 0.29
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.