标签[fuzzywuzzy] - 堆栈内存溢出

如何在字符串列表（> 2 个字符串）中找到最长的公共 substring？尝试 FuzzyWuzzy 和序列匹配器 - How to find the longest common substring in a list of strings (>2 strings)? Trying FuzzyWuzzy and Sequence matcher

所以我试图为使用 dois 的期刊找到一个通用标识符。例如，我有一份期刊的 dois 列表：['10.1001/jamacardio.2016.5501', '10.1001/jamacardio.2017.3145', '10.1001/jamacardio.2018.3029', '10.10 ...

为大型数据集调整嵌套的 apply() 函数 - Adjusting nested apply() functions for large datasets

我有两个要比较的数据框，但遇到了体积问题。我正在通过 450 万行库存列表传递一行新项目描述并计算相似度。我只需要前 x 个建议，并且意识到我当前的方法很快就会被大量数据淹没并导致内核崩溃。我以前没有处理过这个数据大小，所以我不确定如何调整我的代码。任何意见是极大的赞赏。当前的方法是先将数 ...

在多列上模糊匹配 2 个数据帧，其中包括一列具有浮点值 - Fuzzy Matching 2 DataFrames on multiple columns which includes one column with Float Values

我有 2 个数据帧，即“Master_data_df”和“My_records_df”。我需要通过与“My_records_df”进行比较来找出“Master_data_df”中遗漏的记录。这里的“Cleint_Name”列是一个字符串，在 2 个数据框中没有完全匹配。类似地，“Transac ...

如何使用数据库中的完美地址清理我凌乱的地址？ - How to clean my messy address using the perfect address in database?

我在 oracle sql 中有一个数据库表，其中包含所有正确的地址（大约 2,00,000 条记录），我们得到了一个地址混乱的新文件。有什么方法可以将混乱的地址列（200、000 条记录）与数据库表中的地址匹配吗？两个表之间没有唯一列。请给我一些建议我尝试在两个表之间的部分地址匹配上使用 ...

for 循环遍历列表模糊匹配打印出匹配分数 - for Loop over a list fuzzy match printing out match score

我有一个关于模糊匹配的问题。这是我要编写的函数：如何在列表上使用for循环（或其他解决方案）并将匹配分数附加到数据集？预期输出：试图在列表上循环 ...

如何提取括号内包含字符串、逗号和整数的字符串？ - How to extract a string within a parentheses that contains the string, a comma, and an integer?

我正在尝试拉出一个位于括号内的字符串名称，该名称包含后跟逗号和整数的字符串。我当前的数据帧输出是这样的：但我希望数据框输出看起来像这样：我目前的 df 列为：我试过使用 str.extract 但我对如何只专注于抓住字母模式感到困惑。 ...

使用 rapidfuzz 并行处理 function - Parallel processing with rapidfuzz function

我有一个包含 100 000 条记录的数据集。我的问题是多对多类型，我需要计算每行 100k 行中名称列的模糊分数。我正在使用 for 循环迭代每一行并使用 pandas apply 方法计算模糊分数。真正的问题是代码需要大约 15 个小时的时间，所以我尝试使用并行处理和多处理来减少这个时间 ...

如何在进行文本相似性评分时对熊猫数据帧进行矢量化和加速双循环 - How to vectorize and speed-up double for-loop for pandas dataframe when doing text similarity scoring

我有以下数据框：如果这些名称属于一个集群编号，我想在name列中识别相似的名称，并为它们创建唯一的 ID。例如， South Beach和Beach属于1号聚类，它们的相似度得分非常高。所以我们将它与唯一的 id 相关联，比如1 。下一个集群是2号， name列中的三个实体属于该集群： Do ...

Fuzzywuzzy 比较两个长度不等的字符串列表并保存多个相似性度量 - Fuzzywuzzy to compare two lists of strings of unequal length and save multiple similarity metrics

我正在尝试比较两个字符串列表并生成两个列表之间的相似性指标。这些列表的长度不等，一个大约有 50,000 个，另一个大约有 3,000 个。但是这里有两个与我的数据相似的 MWE 数据框：forbes = pd.DataFrame( { "company_name": [ ...

在两个 Pandas 数据帧中应用两列的模糊字符串匹配，同时保留相似性得分和 output a Pandas DataFrame - Apply fuzzy string matching of two columns in two Pandas dataframes while preserving a similarity score and output a Pandas DataFrame

我有两个要合并的数据框，基于公司名称的主键和外键。一个数据集有大约 50,000 个唯一的公司名称，另一个数据集有大约 5,000 个。每个列表中可以有重复的公司名称。为此，我尝试遵循Figure out if a business name is very similar to anoth ...

如何在具有多个列表的 dataframe 列中应用模糊匹配并将结果保存在新列中 - How to apply fuzzy matching across a dataframe column with multiple lists and save results in a new column

我对以下参考资料中提供的链接有类似的问题，但有细微差别但想要相同的结果：对 dataframe 列应用模糊匹配并将结果保存在新列中模糊匹配一列中的字符串并使用 fuzzywuzzy 创建新的 dataframe 我有 dataframe 并希望获得 dataframe 中两列之间的部分比率和标 ...

在列表中查找与其他字符串具有最高部分匹配的字符串 - Find a string having highest partial match with other strings in a list

我有一个带字符串的列表 A： ['assembly eye tow top', 'tow eye bolts', 'tow eye bolts need me'] 我试图找到一个字符串strA ，它与列表 A 中的所有字符串具有最高的部分匹配分数。换句话说，创建一个包含常见标记和大多数字符串中存在 ...

为什么我在进行合并时会收到来自 output 的关键错误 - why do i get a key error from output when i do a merge

嗨，请帮助我，我正在尝试使用 pandas 和 fuzzywuzzy 在两个数据集上使用每个数据集的两列进行模糊合并，但我在打印 function 之前的行中得到一个回溯，上面写着 KeyError : ('name', 'lasntname') ，我不知道我引用的是错误的还是什么，我试过双括号和括 ...

模糊搜索 pyspark dataframe - Fuzzy search in pyspark dataframe

我有一个大文件 csv（> 9600 万行）和七列。我想对其中一列进行模糊搜索，并检索与输入字符串相似度最高的记录。该文件由 spark 管理，我通过 pyspark 将其加载到一些 dataframe 中。现在我想使用 fuzzywuzzy 之类的东西来提取最匹配的行。但是 fuzz ...

通过对两者使用相同的字符串来替换列中的相似字符串 - Replacing similar strings in the column by using the same for both

我在我的一个小项目中遇到了以下问题。我有一个大型数据集，其中一些字符串值意外地没有正确写入。我的目标是编写一个 function 以确保在循环中查找所有看起来非常相似 (.75) 的名称，并获得相同的名称。在下面的示例中，我描述了数据的一个子集，其中“Bob Fisherman”、“Bob F ...

优化比较两个数据帧与模糊模糊 - Optimaze comparing two dataframes with fuzzywuzzy

我有两个 dataframe（xlsx 文件）。 df_source包含有关已加载书籍的信息（66,000 行）。 df_sort包含有关需要排序以加载的书籍的信息（36,000 行）。我需要将df_source中的每一行与df_sort中的每一行进行比较。字符串可能略有不同，例如：在df ...

提高模糊匹配性能 - improving fuzzy matching performance

我有两个数据框，第一个有 200k 记录，第二个有 9k。我需要对两列中的字符串匹配应用模糊匹配。我删除了两个数据框中的重复值，但仍然可能有类似的字符串。因此，我编写了以下代码。我认为我可以通过第三列中的 best-two-matches 手动 go 看看它是否是合理的匹配。问题是代码已经 ...

模糊匹配与 Python 字典 - Fuzzywuzzy Match with Python Dictionary

我正在尝试比较两个字典，查找匹配项，然后将一个字典中的键（假设匹配率> = 55）推送到列表中。例如，我使用fuzzywuzzy作为得分比率，但出现此错误： AttributeError: 'str' object has no attribute 'values' 我尝试了以下方法（在其 ...

Pandas - 根据比较 row[i] 和 row[i+1] 的模糊模糊结果更改单列的下一行 - Pandas - change next row on single column based on the fuzzy wuzzy result of comparing row[i] with row[i+1]

我在 pandas 中有下一个 DataFrame(df)：（这只是一个例子，真正的 DF 超过 2000 行和超过 20 个名称） ID 姓名 1 安德烈亚·冈兹莱兹 2 安德里亚·格兹 3 安德里亚·格莱兹 4 线弧 5 线a 6 线条 aerc 我想将第 1 行的名称与第 2 行的名称进行 ...

如果我有一个字符串列表，我如何 select 一些“代表性”字符串，以便在它们之间，它们可以与列表中的所有字符串进行模糊匹配。第一步，对所有文本进行模糊匹配，看起来像这样我的想法是 select 两个或三个字符串可以作为整个集合的代表，这样如果我模糊匹配，我可以将它们全部标记为 1，阈值 &g ...