我有一个公司名称的数据集,如下所示: 问题是其中一些名称指的是完全相同的公司,但写法不同(例如,使用 70 和 71 中的特殊符号,或者使用 LIMIED 而不是 LTD 以及许多其他我无法检查的公司是 170000) . 现在我当然想以相同的方式调用它们并考虑这个策略: 检查变量公司(显示的公司) ...
我有一个公司名称的数据集,如下所示: 问题是其中一些名称指的是完全相同的公司,但写法不同(例如,使用 70 和 71 中的特殊符号,或者使用 LIMIED 而不是 LTD 以及许多其他我无法检查的公司是 170000) . 现在我当然想以相同的方式调用它们并考虑这个策略: 检查变量公司(显示的公司) ...
我有一个单词的相似度矩阵,想应用一种可以将单词聚类的算法。 这是我到目前为止的例子: 显然这是一个非常简单的虚拟示例,但我希望 output 是 2 个集群,一个是“单身汉”、“单身女郎”、“单身汉特别”,另一个是“运动中心”、“运动中心”晚上 8 点”,“周日体育中心”。 谁能帮我这个? ...
我正在尝试比较两个不同的文本。 一个来自简历,另一个来自工作公告。 清理文本后,我试图比较它们以检测公告是否更多地链接到特定的 CV 个人资料。 我实际面临的问题是在这里使用 Spacy 的similarity = pdf_text.similarity(final_text_from_annonc ...
我有以下数据集 我有一个自定义的 function,它将 Mate、Bence、Raul 和 Marina 列与“company_name_Ignite”列进行比较,并针对 company_name_Ignite 列返回每列的相似度分数。 我遇到的问题是,当我尝试运行代码时出现以下错误: 由于我没 ...
我有一个看起来像这样的 DF: 我想要做的是分别将option1和option2列与主列进行比较,并为每个列获得相似度分数。 我有提供分数的代码: from difflib import SequenceMatcher def similar(a, b): ret ...
我有一个看起来像这样的 DF: 我想要做的是遍历Account_Name_HGI和company_name_Ignite列并比较第 1 行中的 2 个字符串并为我提供相似度分数。 我有提供分数的代码: 这带来了我想要的相似度分数,但我对如何创建将迭代 2 列并返回相似度分数的 for 循环的逻辑有疑 ...
我正在尝试在具有接近相似值的str类型数据的列上使用 groupby 并对其进行计数: 例如: 在这种情况下,我想计数为 2。 我想到了类似的东西: df.groupby(['col year', 'col C'], as_index = False) 但考虑到 col C 值也存在差异,这是行不通 ...
我有两个数据 arrays x 和 y: 我想检查程序代码中 x 和 y 之间的相似性。 我试过使用SequenceMatcher()但我不确定使用 package 的相似度表示结果。因为当看到图形时它非常相似,但相似度的呈现结果只有 39.33%,所以对我来说有点奇怪。 是否有另一种方法来检查 x ...
我有一个索引 =“es_demo”,我需要在其中找到与给定“_id”相似的文档,我认为它不起作用,因为返回的结果与查询中提到的“_id”相同。 正如弹性文档中所写,将“include”参数设置为“false”将不会返回查询中提到的“ids”。 有人可以帮我吗我认为我写的查询是错误的。 我也试过这些查 ...
我有一个图表,其中节点/关系如下所示: 所有实体节点和属性节点都有一个名为 id_obj 的属性来标识每个节点假设我有一个 id_obj '111' (n:Entity {id_obj:'111'}) 的实体,并且想要找到所有其他实体节点与 Entity-111 相同的属性,即发现它们具有相同的属性 ...
基本上,我有两组 .tif 文件(一些用于西班牙,另一些用于加利福尼亚),我想统计比较加利福尼亚某些坐标中的气候变量(最大、最小和平均 T,以及月降雨量)并获得西班牙最相似的坐标。 我知道这是可以做到的,我认为它不应该那么难,因为我已经用适当的数据框完成了,但我现在有点迷茫,因为我知道.tif 文 ...
所以我在 Java 中练习二维数组,我有这个练习要求我创建 2 个函数,一个接收矩阵、列号和值,并检查该值在矩阵的特定列中显示了多少次,以及第二个检查两列是否相似。 如果每个值在每一列中只显示一次,则两列被认为是相似的,两列包含相同的值(它们不必以相同的顺序)。 我还没有找到在线解决相同任务的演练 ...
我目前正在为一些 LMS 开发一个问题插件,它根据答案和答案键之间的相似性与余弦相似性自动对答案进行评分。 但最近,我发现有一种更好的算法,它被称为TS-SS ,承诺会更准确。 但是,计算结果为 0 - 无穷大。 作为一个机器学习专家,我假设结果可能是一个距离,就像欧几里德距离一样,但我不确定。 ...
数据由候选药物分子的一些特性组成(最后一行是实际药物) Mol= 分子名称,Su= 表面积,Vol= 体积,PSA= 极性表面积,Ov = 椭圆度,D = HB 供体基团,A = HB 受体,Mw = 分子量,Vina = 与蛋白质的结合亲和力。 我已经尝试scipy.spatial.dista ...
我有两个 dataframe,第一个是位置, 另一个是客户, 我想将客户 dataframe 中位置列中的错字更改为位置 dataframe 中城市/国家/地区中的正确字词。因此 output 将如下所示: ...
这是我正在处理的数据的示例: 在数据中,每个摘要属于一个特定的作者,同一作者可以有多个摘要。 因此,目标是计算作者拥有的每个摘要组合的 Jaccard 指数。 令Wa为抽象 a 的唯一词集。 两个摘要a和b之间的Jaccard指数定义为: Jaccardab = |Wa∩Wb|/|Wa∪Wb| 我试 ...
您好,我一直在处理一个巨大的 csv 文件,该文件需要完成相似性测试。 有 116 万行,测试每行之间的相似性大约需要 7 个小时。 我想使用多个线程来减少这样做所需的时间。 我做相似度测试的function是: 我正在使用 ThreadPoolExecutor 进行多线程处理,这样做的代码是: 但 ...
我需要找到一种计算效率高的方法来识别和匹配句子中的单词。 我知道有各种字符串相似性包使用 Levenshtein 距离、Jaccard 距离、余弦等方法,如stringdist 。 但是这些在近似长度大致相同的两个字符串的相似性水平方面是有效的。 基本上我必须比较短字符串和较长字符串。 我认为最好 ...
我正在从多个 Excel 文件中读取数据,并将它们写回到聚合的 Excel 文件中。 所以我有这个 output,它代表了我公司内的多个实体 ( enity-ID ) 与其他公司 ( debitor-name ) 的关系:debitor_list = [ ("1", "X AG"), ...
我有一个带字符串的列表 A: ['assembly eye tow top', 'tow eye bolts', 'tow eye bolts need me'] 我试图找到一个字符串strA ,它与列表 A 中的所有字符串具有最高的部分匹配分数。 换句话说,创建一个包含常见标记和大多数字符串中存在 ...