[英]Word/Sentence similarity. What is the best approach?
我需要为产品主数据目的构建一个算法,但我不确定最好的 NLP 方法。 场景是: - 我有产品黄金记录; - 我还有很多其他的产品目录需要统一; 示例: - 产品黄金记录:可乐和可乐零; - 需要协调的产品描述:可乐300ml、可乐零300ml、可乐零。
我需要一个通过相似性进行协调的算法,因为我必须考虑拼写错误,有时还要考虑句子中的某个产品。 例子:可乐零JS MKT(JS和MKT都是垃圾,但句子更像可乐零)。
我一直在测试一些 NLP 的句子相似性,例如 Bag of words 以及阅读其他一些方法,例如 Cosine Similarity 和 Levenshtein distance。 但是,我不知道什么是我的情况的最佳选择。
您能否帮助我了解实现我所需要的最佳方法?
通过使用余弦相似度和 Levenshtein 距离,我找到了两个很好的解决方案。 我的情况是,余弦相似度效果更好,因为我很容易在文本中找到品牌名称的一部分,因此获得了 100% 的准确率。 矩阵替换 (Levenshtein) 也不错,但由于数据集中的单词非常相似,我纠正了一些错误。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.