繁体   English   中英

Pandas-如何检查DF行中的字符串列表是否包含另一个DF中的任何串联字符串?

[英]Pandas- How to check if list of strings in DF row contains any of strings in series in another DF?

我有一个DataFrame,其中一列包含字符串列表,如下所示:

print(df_1.lists)

出:

0      [Pucku, Byłam, Miruś, Funkcjonariusze]
1      [Greger, Pytam, Jana, Dopóki, Wiary]
2      [Baborowa, Chcę, Innym, Baborowie]
etc

我有另一个DataFrame,在一个系列中包含单词:

print(df_2.check)

出:

0                   Olszany
1                    Pucków
2                  Baborowa
3                Studzionki
4                     Pytam
5                  Lasowice
etc

我想获取每行df_1.lists并检查列表是否包含来自df_2.check任何单词。 如果它包含,那么我想将这些包含的单词分配给df_1.lists的列。 怎么做?

[编辑]我试过df_1.lists.apply(lambda x:[list(set(df_2.checks.str.extract(r“(”+ i + r“)”)。dropna()。values))for i in x])但这太慢了。

使用嵌套列表理解:

df_1['new'] = [[y for y in x if y in df_2['check'].values] for x in df_1['lists']]

或者为每个值获取set和list之间的intersection

df_1['new'] = [list(set(x).intersection(df_2['check'])) for x in df_1['lists']]

集之间的类似intersection

s = set(df_2['check'])
df_1['new'] = [list(set(x).intersection(s)) for x in df_1['lists']]

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM