您如何根据另一个 dataframe 中列的值以及该 Z6A8064B5DF479455500553C47C5505234067B 中的列字符串是否为 ZE8064B5DF47C55057DZ 过滤 dataframe？

Question

我有两个看起来像这样的数据框：

#df1
id   |  minyear
x       01/01/2019
y       01/02/2019
z       01/03/2019
#df2
id2   |   date 
xx         01/01/2018   
xx         01/02/2019      
xx         01/01/2020     
yy         01/02/2018
yy         01/03/2019
yy         01/04/2020
zz         01/01/2019
zz         01/05/2020

我想要做的是，如果id列是id2的 substring 那么我只想保留df2中大于其 minyear 值的值。 所以最终的 dataframe 应该是这样的：

id2   |   date 
xx         01/02/2019      
xx         01/01/2020     
yy         01/03/2019
yy         01/04/2020
zz         01/05/2020

Answer 1

尝试：

# convert the columns to datetime (skip if they are converted already):
df1.minyear = pd.to_datetime(df1.minyear)
df2.date = pd.to_datetime(df2.date)

x = df1.merge(df2, how="cross")
x["tmp"] = x.apply(lambda r: r["id"] in r["id2"], axis=1)
x = x[x.tmp & x.date.ge(x.minyear)][["id2", "date"]]
print(x)

印刷：

   id2       date
1   xx 2019-01-02
2   xx 2020-01-01
12  yy 2019-01-03
13  yy 2020-01-04
23  zz 2020-01-05

您如何根据另一个 dataframe 中列的值以及该 Z6A8064B5DF479455500553C47C5505234067B 中的列字符串是否为 ZE8064B5DF47C55057DZ 过滤 dataframe？

问题描述

1 个解决方案

解决方案1
1 已采纳 2021-06-05 21:54:43

您如何根据另一个 dataframe 中列的值以及该 Z6A8064B5DF479455500553C47C5505234067B 中的列字符串是否为 ZE8064B5DF47C55057DZ 过滤 dataframe？

问题描述

1 个解决方案

解决方案1 1 已采纳 2021-06-05 21:54:43

解决方案1
1 已采纳 2021-06-05 21:54:43