繁体   English   中英

词/句相似度。 最好的方法是什么?

[英]Word/Sentence similarity. What is the best approach?

我需要为产品主数据目的构建一个算法,但我不确定最好的 NLP 方法。 场景是: - 我有产品黄金记录; - 我还有很多其他的产品目录需要统一; 示例: - 产品黄金记录:可乐和可乐零; - 需要协调的产品描述:可乐300ml、可乐零300ml、可乐零。

我需要一个通过相似性进行协调的算法,因为我必须考虑拼写错误,有时还要考虑句子中的某个产品。 例子:可乐零JS MKT(JS和MKT都是垃圾,但句子更像可乐零)。

我一直在测试一些 NLP 的句子相似性,例如 Bag of words 以及阅读其他一些方法,例如 Cosine Similarity 和 Levenshtein distance。 但是,我不知道什么是我的情况的最佳选择。

您能否帮助我了解实现我所需要的最佳方法?

通过使用余弦相似度和 Levenshtein 距离,我找到了两个很好的解决方案。 我的情况是,余弦相似度效果更好,因为我很容易在文本中找到品牌名称的一部分,因此获得了 100% 的准确率。 矩阵替换 (Levenshtein) 也不错,但由于数据集中的单词非常相似,我纠正了一些错误。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM