繁体   English   中英

我如何对照自身检查Pandas DataFrame的列?

[英]How can I check a Pandas DataFrame's column against itself?

我有一个带有两个相关列的Pandas DataFrame。 我需要对照自身检查A列(名称列表),如果两个(或多个)值彼此足够相似,则将这些行的B列中的值求和。 为了检查相似性,我使用了FuzzyWuzzy包,该包接受两个字符串并返回一个分数。

数据:

a            b   
apple        3 
orang        4 
aple         1  
orange       10  
banana       5

我想留下:

a       b
apple   4
orang   14
banana  5

我已经尝试了以下行,但是我一直收到KeyError

    df['b']=df.apply(lambda x: df.loc[fuzz.ratio(df.a,x.a)>=70,'b'].sum(), axis=1)

我还需要删除将b列添加到另一行的所有行。

关于如何实现这一目标的任何想法?

这里的某些部分最好用熊猫来完成,而某些部分(例如,应用于笛卡尔积的函数)可以不用它来完成。

总体而言,您可以使用以下方法执行此操作:

import itertools
import numpy as np

alias = {l : r for l, r in itertools.product(df.a, df.a) if l < r and 
fuzz.ratio(l, r) > 70}
>>> df.b.groupby(df.a.replace(alias)).sum()
apple      4
banana     5
orange    14
Name: b, dtype: int64

线

alias = {l : r for l, r in itertools.product(df.a, df.a) if l < r and 
fuzz.ratio(l, r) > 70}

创建地图alias ,映射字从他们别名a

线

df.b.groupby(df.a.replace(alias)).sum()

通过使用alias的翻译将b分组,然后求和。

我会映射和分组:

def get_similarity(df, ind, col):
    mapped = list(map(lambda x: fuzz.ratio(x, df[col].loc[ind]), df[col]))
    cond = (np.array(mapped) >= 70)
    label = df[col][cond].iloc[0]

    return label

像这样使用:

df.groupby(lambda x: get_similarity(df, x, 'a'))['b'].sum()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM