繁体   English   中英

计算2个句子之间的相似度

[英]Calculating the similarity between 2 sentences

我想计算2个句子之间的相似度,我需要一个百分比值来说明它们彼此匹配的程度。 像这样的句子

1. The red fox is moving on the hill.
2. The black fox is moving in the bill.

我当时正在考虑Levenshtein distance但是我不确定,因为它说这是为了寻找“ 2个字”之间的相似性。 那么这个Levenshtein distance可以帮助我吗?或者还有什么其他方法可以帮助我呢? 我将使用JavaScript。

尝试此解决方案JS string diff

使用Jaccard索引 您可以找到任何语言的实现,包括JavaScript( 是一种,虽然没有亲自测试过)。

这是我会做的,具体取决于这有多重要。 如果是中到低优先级,这是一个简单的算法。

  1. 扫描所有句子,查看单词出现的频率。
  2. 过滤掉最常见的单词,例如30%的句子中的单词,即不要计算这些单词。 因此希望不会被计算在内。
  3. 然后做你的单词比较。

但是,为什么要执行此操作的上下文非常重要。 也就是说,您提供给我们的示例可能是针对学习英语等的学生,也就是说,如果我尝试查看人群中的用户是否在描述同一段,而文章主题是否足够相似以建议阅读,那么我将使用不同的算法。

计算两个句子相似度的常用方法是余弦相似度。 不知道JavaScript中是否存在实现。 余弦相似度仅针对单词而不是单个字母。 该网站是完全explenations例如这里

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM