![](/img/trans.png)
[英]How to extract only English words from a from big text corpus using nltk?
[英]Extract similar words from a corpus
我想從語料庫中提取相似的詞。 相似性基於字符串。 即,當兩個單詞的字符串高度相似時,兩個單詞提取為相似單詞。 例如,如果語料庫包含:Aras,bahro,arasis,adkpo,bah,aras sd,kio。
相似詞:
1- aras,arasis,aras SD
2- bahro,bah
如何解決這個問題呢? 謝謝。
Levenshtein距離是用於測量兩個單詞序列之間的差異的度量,也許您可以采用一個單詞序列並計算距離以了解它們是否相似。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.