[英]Extract similar words from a corpus
I want to extract similar words from a corpus. 我想从语料库中提取相似的词。 The similarity is based on string.
相似性基于字符串。 Namely, when the string of two words are highly similar, two words extract as similar words.
即,当两个单词的字符串高度相似时,两个单词提取为相似单词。 For example, If the corpus contains: Aras, bahro, arasis, adkpo, bah, aras sd, kio.
例如,如果语料库包含:Aras,bahro,arasis,adkpo,bah,aras sd,kio。
Similar words: 相似词:
1- aras, arasis, aras sd 1- aras,arasis,aras SD
2- bahro, bah 2- bahro,bah
how to solve this problem? 如何解决这个问题呢? Thanks.
谢谢。
Levenshtein距离是用于测量两个单词序列之间的差异的度量,也许您可以采用一个单词序列并计算距离以了解它们是否相似。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.