用相同的字符串替换列中的相似字符串

Question

我有一个 Pandas 数据框，用于收集进行交易的供应商的名称。 由于此数据是从银行对帐单中自动收集的，因此许多供应商都相似……但并不完全相同。 总之，我想用一个名称替换供应商名称的不同排列。

我想我可以找到一种方法来做到这一点（见下文），但我是一个初学者，在我看来这是一个复杂的问题。 我真的很想知道更有经验的编码人员会如何处理它。

我有一个这样的数据框（在现实生活中，它大约有 20 列，最多大约 50 行）：

     Groceries            Car                Luxuries
0    Sainsburys           Texaco wst453      Amazon
1    Sainsburys bur       Texaco east        Firebox Ltd
2    Sainsbury's east     Shell wstl         Sony
3    Tesco                Shell p/stn        Sony ent nrk
4    Tescos ref 657       Texac              Amazon EU
5    Tesco 45783          Moto               Amazon marketplace

我想找到类似的条目并将它们替换为这些条目的第一个实例，所以我最终会得到这个：

     Groceries            Car                Luxuries
0    Sainsburys           Texaco wst453      Amazon
1    Sainsburys           Texaco wst453      Firebox Ltd
2    Sainsburys           Shell wstl         Sony
3    Tesco                Shell wstl         Sony
4    Tesco                Texaco wst453      Amazon
5    Tesco                Moto               Amazon

我的解决方案可能远非最佳。 我正在考虑按字母顺序排序，然后按位排序并使用来自 difflib 的 SequenceMatcher 之类的东西来比较每对供应商。 如果相似度高于某个百分比（我希望在我满意之前一直使用这个值），那么这两个供应商将被认为是相同的。 我担心我可能会使用大锤敲碎坚果，或者可能需要很长时间（我并不痴迷于性能，但同样我不想等待几个小时才能获得结果）。

真的很想听听人们对这个问题的想法！

Answer 1

一开始，这个问题看起来并不复杂，但它确实如此。

我使用名为fuzzywuzzy 的字符串相似性包来决定必须替换哪个字符串。 这个包使用了 Levenshtein Similarity，我使用了 %90 作为阈值。 此外，任何字符串的第一个单词用作比较字符串。 这是我的代码：

import pandas
from fuzzywuzzy import fuzz

# Replaces %90 and more similar strings  
def func(input_list):
    for count, item in enumerate(input_list):
        rest_of_input_list = input_list[:count] + input_list[count + 1:]
        new_list = []
        for other_item in rest_of_input_list:
            similarity = fuzz.ratio(item, other_item)
            if similarity >= 90:
                new_list.append(item)
            else:
                new_list.append(other_item)
        input_list = new_list[:count] + [item] + new_list[count :]
                
    return input_list

df = pandas.read_csv('input.txt') # Read data from csv
result = []
for column in list(df):
    column_values = list(df[column])
    first_words = [x[:x.index(" ")] if " " in x else x for x in column_values]
    result.append(func(first_words))
    
new_df = pandas.DataFrame(result).transpose() 
new_df.columns = list(df)

print(new_df)

输出：

     Groceries    Car Luxuries
0  Sainsbury's  Texac   Amazon
1  Sainsbury's  Texac  Firebox
2  Sainsbury's  Shell     Sony
3        Tesco  Shell     Sony
4        Tesco  Texac   Amazon
5        Tesco   Moto   Amazon

更新：

更具可读性的func版本，它产生相同的结果：

def func(input_list):
    for i in range(len(input_list)):
        for j in range(len(input_list)):
            if i < j and fuzz.ratio(input_list[i], input_list[j]) >= 90:
                input_list[i] = input_list[j] # Keep the last encountered item
                # Use following line to keep the first encountered item
                # input_list[j] = input_list[i]

用相同的字符串替换列中的相似字符串

问题描述

1 个解决方案

解决方案1
5 2017-11-26 23:54:55

用相同的字符串替换列中的相似字符串

问题描述

1 个解决方案

解决方案1 5 2017-11-26 23:54:55

解决方案1
5 2017-11-26 23:54:55