标签[fuzzy-comparison] - 堆栈内存溢出

Fuzzywuzzy 比较两个长度不等的字符串列表并保存多个相似性度量 - Fuzzywuzzy to compare two lists of strings of unequal length and save multiple similarity metrics

我正在尝试比较两个字符串列表并生成两个列表之间的相似性指标。这些列表的长度不等，一个大约有 50,000 个，另一个大约有 3,000 个。但是这里有两个与我的数据相似的 MWE 数据框：forbes = pd.DataFrame( { "company_name": [ ...

将 lambda function 应用于两个 Pandas 数据帧中的两列 - Apply lambda function to two columns in two Pandas dataframes

我有两个要合并的数据框，基于公司名称的主键和外键。一个数据集有大约 50,000 个唯一的公司名称，另一个数据集有大约 5,000 个。每个列表中可以有重复的公司名称。我正在尝试生成一些字符串编辑距离度量来比较两个数据帧之间的两列。这是一个带有示例数据框的 MWE：我想：在上面，有 1 ...

如何在具有多个列表的 dataframe 列中应用模糊匹配并将结果保存在新列中 - How to apply fuzzy matching across a dataframe column with multiple lists and save results in a new column

我对以下参考资料中提供的链接有类似的问题，但有细微差别但想要相同的结果：对 dataframe 列应用模糊匹配并将结果保存在新列中模糊匹配一列中的字符串并使用 fuzzywuzzy 创建新的 dataframe 我有 dataframe 并希望获得 dataframe 中两列之间的部分比率和标 ...

根据 Other 中的列使用正确的词更改拼写错误的列值 Dataframe - Change Typo Column Values with Right Word based on Columns in Other Dataframe

我有两个 dataframe，第一个是位置，另一个是客户，我想将客户 dataframe 中位置列中的错字更改为位置 dataframe 中城市/国家/地区中的正确字词。因此 output 将如下所示： ...

在列表中查找与其他字符串具有最高部分匹配的字符串 - Find a string having highest partial match with other strings in a list

我有一个带字符串的列表 A： ['assembly eye tow top', 'tow eye bolts', 'tow eye bolts need me'] 我试图找到一个字符串strA ，它与列表 A 中的所有字符串具有最高的部分匹配分数。换句话说，创建一个包含常见标记和大多数字符串中存在 ...

为什么我在进行合并时会收到来自 output 的关键错误 - why do i get a key error from output when i do a merge

嗨，请帮助我，我正在尝试使用 pandas 和 fuzzywuzzy 在两个数据集上使用每个数据集的两列进行模糊合并，但我在打印 function 之前的行中得到一个回溯，上面写着 KeyError : ('name', 'lasntname') ，我不知道我引用的是错误的还是什么，我试过双括号和括 ...

模糊匹配与 Python 字典 - Fuzzywuzzy Match with Python Dictionary

我正在尝试比较两个字典，查找匹配项，然后将一个字典中的键（假设匹配率> = 55）推送到列表中。例如，我使用fuzzywuzzy作为得分比率，但出现此错误： AttributeError: 'str' object has no attribute 'values' 我尝试了以下方法（在其 ...

如果我有一个字符串列表，我如何 select 一些“代表性”字符串，以便在它们之间，它们可以与列表中的所有字符串进行模糊匹配。第一步，对所有文本进行模糊匹配，看起来像这样我的想法是 select 两个或三个字符串可以作为整个集合的代表，这样如果我模糊匹配，我可以将它们全部标记为 1，阈值 &g ...

嵌套数据的模糊匹配（例如：个人\家庭\群体） - fuzzy matching of nested data (ex: individuals \in families \in groups)

赏金将在 2 天内到期。此问题的答案有资格获得+50声望赏金。 LucasMation正在从有信誉的来源寻找答案。我正在尝试跨两个数据集 D1、D2 匹配组。每个数据集代表时间 t=1 和 t=2 的分组。假设数据有 3 个嵌套级别： i：个体具有特征：X,Y,Z f：家庭是由个人组 ...

获取字符串 'marketing' 和 'makeing' 的 NULL 值，因为 soundex 只删除元音，因为两者都具有相同的 soundex 字符串值 - getting NULL value for string 'marketing' and 'makeing' as soundex drops vowels only as both have same soundex string value

编写查询以从 Emp Master 表中返回部门拼写错误的员工 ID 列表。正确的数据在 Dept_Master 中，没有外键。 SELECT * FROM Emp_Master as orig LEFT OUTER JOIN Dept_Master as correct ON SOUNDEX(o ...

是否有用于模糊字符串检测的 R 包（或现有函数）？ - Is there an R package (or existing function) for fuzzy string detection?

我正在寻找类似于 stringr 包中的 str_detect() 的东西，但它能够检测不完美或“模糊”的匹配。最好，我希望能够指定不完美的程度（1个不同的字符，2个不同的字符等）。我正在做的匹配将采用类似于以下代码的形式（但这只是我编写的一个简化示例）。在这个例子中，只有“RUTH CHR ...

想在匹配的字符串中添加遗漏的字符串 - want to add left out string in matched string

下面是我的示例代码：注意：“something”字符串可以是“battery”或“display”等同义词 json 我需要什么？我想在供应商列表中动态添加所有“某物”字符串。！注意——“something”字符串将来可以是任何东西。我想在供应商数组中添加“某物”字符串 ...

Agrepl - 10% 的阈值是什么意思？ - Agrepl - what does a 10% threshold mean?

我使用 Agrepl 对两组地址进行模糊匹配。文档说默认是：如果没有给出cost，all默认为10%，其他transformation number bounds默认为all。组件名称可以缩写。然而，阅读这个带有这个例子的问答，这似乎并不匹配。这是那个例子：根据描述，我想计算 10 ...

用于过滤的 stringr::str_detect 的模糊版本 dataframe - fuzzy version of stringr::str_detect for filtering dataframe

我有一个包含自由文本字段的数据库，我想用它来filter data.frame或tibble 。我也许可以通过大量工作创建一个列表，列出当前出现在数据中的我的搜索词的所有可能拼写错误（参见下面一个词的所有拼写示例），然后我可以使用stringr::str_detect作为下面的示例代码。但是， ...

算法挑战：模糊搜索 - Algorithm Challenge: Fuzzy Search

我最近参加了一项算法挑战赛，目的是根据以下标准创建模糊搜索：给定一个集合数组，创建一个 function 接收一个参数并返回一个新数组，该数组仅包含以以下任一开头的值： A) 提供的论点 B) 提供的论点但有 1 个不同（即 1 个不正确的字母）数组是：fruits = [apple, apr ...

Exasol SQL 模糊匹配 function - Exasol SQL Fuzzy Matching function

美好的一天，你们这些 SQL 天才。我遇到了一些问题。我工作的公司使用 EXASOL SQL，我试图找到一个 function，我可以使用它来模糊匹配两个字符串。例如，假设我们有这两个字符串： 1. 字母街 123 号 2. 字母街 123 号我想知道这两个字符串有多相似，但公司使用的 E ...

模糊匹配和分组 - Fuzzy matching and grouping

我正在尝试在多个字段上使用 Python 进行模糊匹配和分组。我想在不同的模糊阈值上对每一列进行比较。我试图在谷歌上搜索，但找不到任何可以进行重复数据删除然后在不同列上创建组的解决方案。输入：姓名地址罗伯特南瓜山街 9185 号抢南瓜山街 9185 号麦克风隧道街 1296 号麦克风隧道街 ...

Substring 多选项提取 - Substring extraction with multiple options

我的数据集中有一个 Stata 变量，如下所示：我希望它看起来像： “市”、“县”和“市区县”是城市名称后面仅有的三个词。换句话说，我想从左边提取 substring 到城市、县或城市之前的空间。我能想到的唯一方法是使用 subinstring 来解决这个问题：但是，我不认为我可以在此处添 ...

使用正则表达式和查找的组合匹配记录 - Match records with a combination of regex and lookup

我想使用以下逻辑匹配两个表之间的个人记录：姓氏的正则表达式匹配，直至细微变化 - 由给定姓氏的以下正则表达式总结： grepl("LNAME(.r|-| [ivx]|.*)", last_name, ignore.case = TRUE) 。建议使用 function fuzzyjoin::re ...

左连接时模糊匹配 BigQuery 中的多个列 - Fuzzy matching multiple columns in BigQuery when left-joining

例子我们希望将lhs_table加入rhs_table以获取 playerIds。 rhs_table中的每个人在lhs_table中都有对应的行，但是连接并不是那么简单：对于 Nia Johnson Jr.， rhs_table中缺少Jr. 对于 Jana Abdullah，她的学校在一张 ...