簡體   English   中英

根據預先計算的哈希值比較字符串距離

[英]Comparing string distance based on precomputed hashes

我有一個很大的列表(超過200,000)字符串,我想與給定的字符串進行比較。 給定的字符串由用戶插入,因此可能稍微不正確。

我希望做的是在將每個字符串添加到列表中時為每個字符串創建一些預先計算的哈希值。 此哈希將包含諸如字符串長度,所有字符的添加等信息。

我的問題是,這樣的事情已經存在嗎? 肯定會有一些東西讓我避免在列表中的每個字符串上運行Levenshtein距離

或許還有第三種選擇,我還沒想過呢?

聽起來你想要使用某種模糊散列。 有很多哈希函數可以做這樣的事情。 經典的舊“ SOUNDEX ”算法甚至可能有效。

另一個想法 - 如果你估計輸入錯誤的可能性很低,那么你可能實際上很好地直接命中99.9%的時間,回到SOUNDEX,這可能會捕獲90%的剩余案例,然后搜索整個列出剩余0.01%的時間。

還值得檢查這個討論: 如何在大型字符串數據庫中找到字符串的最佳模糊匹配

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM