所以我试图为使用 dois 的期刊找到一个通用标识符。 例如,我有一份期刊的 dois 列表:['10.1001/jamacardio.2016.5501', '10.1001/jamacardio.2017.3145', '10.1001/jamacardio.2018.3029', '10.10 ...
所以我试图为使用 dois 的期刊找到一个通用标识符。 例如,我有一份期刊的 dois 列表:['10.1001/jamacardio.2016.5501', '10.1001/jamacardio.2017.3145', '10.1001/jamacardio.2018.3029', '10.10 ...
我有两个要比较的数据框,但遇到了体积问题。 我正在通过 450 万行库存列表传递一行新项目描述并计算相似度。 我只需要前 x 个建议,并且意识到我当前的方法很快就会被大量数据淹没并导致内核崩溃。 我以前没有处理过这个数据大小,所以我不确定如何调整我的代码。 任何意见是极大的赞赏。 当前的方法是先将数 ...
我有 2 个数据帧,即“Master_data_df”和“My_records_df”。 我需要通过与“My_records_df”进行比较来找出“Master_data_df”中遗漏的记录。 这里的“Cleint_Name”列是一个字符串,在 2 个数据框中没有完全匹配。 类似地,“Transac ...
我在 oracle sql 中有一个数据库表,其中包含所有正确的地址(大约 2,00,000 条记录),我们得到了一个地址混乱的新文件。 有什么方法可以将混乱的地址列(200、000 条记录)与数据库表中的地址匹配吗? 两个表之间没有唯一列。 请给我一些建议我尝试在两个表之间的部分地址匹配上使用 ...
我有一个关于模糊匹配的问题。 这是我要编写的函数: 如何在列表上使用for循环(或其他解决方案)并将匹配分数附加到数据集? 预期输出: 试图在列表上循环 ...
我正在尝试拉出一个位于括号内的字符串名称,该名称包含后跟逗号和整数的字符串。 我当前的数据帧输出是这样的: 但我希望数据框输出看起来像这样: 我目前的 df 列为: 我试过使用 str.extract 但我对如何只专注于抓住字母模式感到困惑。 ...
我有一个包含 100 000 条记录的数据集。 我的问题是多对多类型,我需要计算每行 100k 行中名称列的模糊分数。 我正在使用 for 循环迭代每一行并使用 pandas apply 方法计算模糊分数。 真正的问题是代码需要大约 15 个小时的时间,所以我尝试使用并行处理和多处理来减少这个时间 ...
我有以下数据框: 如果这些名称属于一个集群编号,我想在name列中识别相似的名称,并为它们创建唯一的 ID。 例如, South Beach和Beach属于1号聚类,它们的相似度得分非常高。 所以我们将它与唯一的 id 相关联,比如1 。 下一个集群是2号, name列中的三个实体属于该集群: Do ...
我正在尝试比较两个字符串列表并生成两个列表之间的相似性指标。 这些列表的长度不等,一个大约有 50,000 个,另一个大约有 3,000 个。 但是这里有两个与我的数据相似的 MWE 数据框:forbes = pd.DataFrame( { "company_name": [ ...
我有两个要合并的数据框,基于公司名称的主键和外键。 一个数据集有大约 50,000 个唯一的公司名称,另一个数据集有大约 5,000 个。 每个列表中可以有重复的公司名称。 为此,我尝试遵循Figure out if a business name is very similar to anoth ...
我对以下参考资料中提供的链接有类似的问题,但有细微差别但想要相同的结果: 对 dataframe 列应用模糊匹配并将结果保存在新列中 模糊匹配一列中的字符串并使用 fuzzywuzzy 创建新的 dataframe 我有 dataframe 并希望获得 dataframe 中两列之间的部分比率和标 ...
我有一个带字符串的列表 A: ['assembly eye tow top', 'tow eye bolts', 'tow eye bolts need me'] 我试图找到一个字符串strA ,它与列表 A 中的所有字符串具有最高的部分匹配分数。 换句话说,创建一个包含常见标记和大多数字符串中存在 ...
嗨,请帮助我,我正在尝试使用 pandas 和 fuzzywuzzy 在两个数据集上使用每个数据集的两列进行模糊合并,但我在打印 function 之前的行中得到一个回溯,上面写着 KeyError : ('name', 'lasntname') ,我不知道我引用的是错误的还是什么,我试过双括号和括 ...
我有一个大文件 csv(> 9600 万行)和七列。 我想对其中一列进行模糊搜索,并检索与输入字符串相似度最高的记录。 该文件由 spark 管理,我通过 pyspark 将其加载到一些 dataframe 中。现在我想使用 fuzzywuzzy 之类的东西来提取最匹配的行。 但是 fuzz ...
我在我的一个小项目中遇到了以下问题。 我有一个大型数据集,其中一些字符串值意外地没有正确写入。 我的目标是编写一个 function 以确保在循环中查找所有看起来非常相似 (.75) 的名称,并获得相同的名称。 在下面的示例中,我描述了数据的一个子集,其中“Bob Fisherman”、“Bob F ...
我有两个 dataframe(xlsx 文件)。 df_source包含有关已加载书籍的信息(66,000 行)。 df_sort包含有关需要排序以加载的书籍的信息(36,000 行)。 我需要将df_source中的每一行与df_sort中的每一行进行比较。 字符串可能略有不同,例如: 在df ...
我有两个数据框,第一个有 200k 记录,第二个有 9k。 我需要对两列中的字符串匹配应用模糊匹配。 我删除了两个数据框中的重复值,但仍然可能有类似的字符串。 因此,我编写了以下代码。 我认为我可以通过第三列中的 best-two-matches 手动 go 看看它是否是合理的匹配。 问题是代码已经 ...
我正在尝试比较两个字典,查找匹配项,然后将一个字典中的键(假设匹配率> = 55)推送到列表中。 例如, 我使用fuzzywuzzy作为得分比率,但出现此错误: AttributeError: 'str' object has no attribute 'values' 我尝试了以下方法(在其 ...
我在 pandas 中有下一个 DataFrame(df):(这只是一个例子,真正的 DF 超过 2000 行和超过 20 个名称) ID 姓名 1 安德烈亚·冈兹莱兹 2 安德里亚·格兹 3 安德里亚·格莱兹 4 线弧 5 线a 6 线条 aerc 我想将第 1 行的名称与第 2 行的名称进行 ...
如果我有一个字符串列表,我如何 select 一些“代表性”字符串,以便在它们之间,它们可以与列表中的所有字符串进行模糊匹配。 第一步,对所有文本进行模糊匹配,看起来像这样 我的想法是 select 两个或三个字符串可以作为整个集合的代表,这样如果我模糊匹配,我可以将它们全部标记为 1,阈值 &g ...