cost 170 ms
在 pandas 变量中寻找相似性 - Finding similarity in a pandas variable

我有一个公司名称的数据集,如下所示: 问题是其中一些名称指的是完全相同的公司,但写法不同(例如,使用 70 和 71 中的特殊符号,或者使用 LIMIED 而不是 LTD 以及许多其他我无法检查的公司是 170000) . 现在我当然想以相同的方式调用它们并考虑这个策略: 检查变量公司(显示的公司) ...

我将如何从 Levenshtein 相似矩阵制作聚类? - How would I make clusters from a Levenshtein similarity matrix?

我有一个单词的相似度矩阵,想应用一种可以将单词聚类的算法。 这是我到目前为止的例子: 显然这是一个非常简单的虚拟示例,但我希望 output 是 2 个集群,一个是“单身汉”、“单身女郎”、“单身汉特别”,另一个是“运动中心”、“运动中心”晚上 8 点”,“周日体育中心”。 谁能帮我这个? ...

我如何检查含义的相似性,而不仅仅是两个具有 spacy 的文本之间的相同单词 - How can I check similarity in meaning and not just having same words between two texts with spacy

我正在尝试比较两个不同的文本。 一个来自简历,另一个来自工作公告。 清理文本后,我试图比较它们以检测公告是否更多地链接到特定的 CV 个人资料。 我实际面临的问题是在这里使用 Spacy 的similarity = pdf_text.similarity(final_text_from_annonc ...

迭代 2 列并比较 Python 中的相似性 - Iterating over 2 columns and comparing similarities in Python

我有一个看起来像这样的 DF: 我想要做的是遍历Account_Name_HGI和company_name_Ignite列并比较第 1 行中的 2 个字符串并为我提供相似度分数。 我有提供分数的代码: 这带来了我想要的相似度分数,但我对如何创建将迭代 2 列并返回相似度分数的 for 循环的逻辑有疑 ...

如何找到两个 arrays 之间的相似性百分比 - how to find percentage of similarity between two arrays

我有两个数据 arrays x 和 y: 我想检查程序代码中 x 和 y 之间的相似性。 我试过使用SequenceMatcher()但我不确定使用 package 的相似度表示结果。因为当看到图形时它非常相似,但相似度的呈现结果只有 39.33%,所以对我来说有点奇怪。 是否有另一种方法来检查 x ...

ElasticSearch: more_like_this 查询 - ElasticSearch: more_like_this query

我有一个索引 =“es_demo”,我需要在其中找到与给定“_id”相似的文档,我认为它不起作用,因为返回的结果与查询中提到的“_id”相同。 正如弹性文档中所写,将“include”参数设置为“false”将不会返回查询中提到的“ids”。 有人可以帮我吗我认为我写的查询是错误的。 我也试过这些查 ...

Cypher - 匹配具有相似关系的节点根据相同关系的数量对结果进行排序 - Cypher - match nodes with similar relations rank result based on number of identical relations

我有一个图表,其中节点/关系如下所示: 所有实体节点和属性节点都有一个名为 id_obj 的属性来标识每个节点假设我有一个 id_obj '111' (n:Entity {id_obj:'111'}) 的实体,并且想要找到所有其他实体节点与 Entity-111 相同的属性,即发现它们具有相同的属性 ...

我可以将相似性模型应用于 R 中的 .tif 文件吗? - Can I apply similarity models to .tif files in R?

基本上,我有两组 .tif 文件(一些用于西班牙,另一些用于加利福尼亚),我想统计比较加利福尼亚某些坐标中的气候变量(最大、最小和平均 T,以及月降雨量)并获得西班牙最相似的坐标。 我知道这是可以做到的,我认为它不应该那么难,因为我已经用适当的数据框完成了,但我现在有点迷茫,因为我知道.tif 文 ...

无法创建循环来检查矩阵的两列是否相似(2D 数组,Java) - Having trouble creating a loop to check if two columns of a matrix are similar (2D arrays, Java)

所以我在 Java 中练习二维数组,我有这个练习要求我创建 2 个函数,一个接收矩阵、列号和值,并检查该值在矩阵的特定列中显示了多少次,以及第二个检查两列是否相似。 如果每个值在每一列中只显示一次,则两列被认为是相似的,两列包含相同的值(它们不必以相同的顺序)。 我还没有找到在线解决相同任务的演练 ...

如何将 TS-SS 结果转换为 0 - 1 之间的相似性度量? - How to convert TS-SS result to similarity measure between 0 - 1?

我目前正在为一些 LMS 开发一个问题插件,它根据答案和答案键之间的相似性与余弦相似性自动对答案进行评分。 但最近,我发现有一种更好的算法,它被称为TS-SS ,承诺会更准确。 但是,计算结果为 0 - 无穷大。 作为一个机器学习专家,我假设结果可能是一个距离,就像欧几里德距离一样,但我不确定。 ...

哪种算法最适合找到与实际药物最相似的分子? 以及如何增加因素的权重? - which type of algorithm suits the best to find the most similar molecule with respect to the actual drug? and how to add weight on factors?

数据由候选药物分子的一些特性组成(最后一行是实际药物) Mol= 分子名称,Su= 表面积,Vol= 体积,PSA= 极性表面积,Ov = 椭圆度,D = HB 供体基团,A = HB 受体,Mw = 分子量,Vina = 与蛋白质的结合亲和力。 我已经尝试scipy.spatial.dista ...

如何计算一组不同关键字之间的 Jaccard 指数 - How can I calculate Jaccard index between a set of different keywords

这是我正在处理的数据的示例: 在数据中,每个摘要属于一个特定的作者,同一作者可以有多个摘要。 因此,目标是计算作者拥有的每个摘要组合的 Jaccard 指数。 令Wa为抽象 a 的唯一词集。 两个摘要a和b之间的Jaccard指数定义为: Jaccardab = |Wa∩Wb|/|Wa∪Wb| 我试 ...

2022-11-20 14:38:18   1   35    r / similarity  
Python中的多线程相似度测试 - Multithreading for similarity test in Python

您好,我一直在处理一个巨大的 csv 文件,该文件需要完成相似性测试。 有 116 万行,测试每行之间的相似性大约需要 7 个小时。 我想使用多个线程来减少这样做所需的时间。 我做相似度测试的function是: 我正在使用 ThreadPoolExecutor 进行多线程处理,这样做的代码是: 但 ...

R 中较长文本的字符串相似度(在句子中搜索单词) - String similarity for longer text (searching for words in sentences) in R

我需要找到一种计算效率高的方法来识别和匹配句子中的单词。 我知道有各种字符串相似性包使用 Levenshtein 距离、Jaccard 距离、余弦等方法,如stringdist 。 但是这些在近似长度大致相同的两个字符串的相似性水平方面是有效的。 基本上我必须比较短字符串和较长字符串。 我认为最好 ...

在列表中查找与其他字符串具有最高部分匹配的字符串 - Find a string having highest partial match with other strings in a list

我有一个带字符串的列表 A: ['assembly eye tow top', 'tow eye bolts', 'tow eye bolts need me'] 我试图找到一个字符串strA ,它与列表 A 中的所有字符串具有最高的部分匹配分数。 换句话说,创建一个包含常见标记和大多数字符串中存在 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM