簡體   English   中英

詞/句相似度。 最好的方法是什么?

[英]Word/Sentence similarity. What is the best approach?

我需要為產品主數據目的構建一個算法,但我不確定最好的 NLP 方法。 場景是: - 我有產品黃金記錄; - 我還有很多其他的產品目錄需要統一; 示例: - 產品黃金記錄:可樂和可樂零; - 需要協調的產品描述:可樂300ml、可樂零300ml、可樂零。

我需要一個通過相似性進行協調的算法,因為我必須考慮拼寫錯誤,有時還要考慮句子中的某個產品。 例子:可樂零JS MKT(JS和MKT都是垃圾,但句子更像可樂零)。

我一直在測試一些 NLP 的句子相似性,例如 Bag of words 以及閱讀其他一些方法,例如 Cosine Similarity 和 Levenshtein distance。 但是,我不知道什么是我的情況的最佳選擇。

您能否幫助我了解實現我所需要的最佳方法?

通過使用余弦相似度和 Levenshtein 距離,我找到了兩個很好的解決方案。 我的情況是,余弦相似度效果更好,因為我很容易在文本中找到品牌名稱的一部分,因此獲得了 100% 的准確率。 矩陣替換 (Levenshtein) 也不錯,但由於數據集中的單詞非常相似,我糾正了一些錯誤。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM