簡體   English   中英

從語料庫中提取相似的詞

[英]Extract similar words from a corpus

我想從語料庫中提取相似的詞。 相似性基於字符串。 即,當兩個單詞的字符串高度相似時,兩個單詞提取為相似單詞。 例如,如果語料庫包含:Aras,bahro,arasis,adkpo,bah,aras sd,kio。

相似詞:

1- aras,arasis,aras SD

2- bahro,bah

如何解決這個問題呢? 謝謝。

Levenshtein距離是用於測量兩個單詞序列之間的差異的度量,也許您可​​以采用一個單詞序列並計算距離以了解它們是否相似。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM