簡體 English 中英

根據預先計算的哈希值比較字符串距離

[英]Comparing string distance based on precomputed hashes

原文 2010-08-12 23:33:51 9 1 string/ hash/ compare/ distance/ precompute

我有一個很大的列表（超過200,000）字符串，我想與給定的字符串進行比較。 給定的字符串由用戶插入，因此可能稍微不正確。

我希望做的是在將每個字符串添加到列表中時為每個字符串創建一些預先計算的哈希值。 此哈希將包含諸如字符串長度，所有字符的添加等信息。

我的問題是，這樣的事情已經存在嗎？ 肯定會有一些東西讓我避免在列表中的每個字符串上運行Levenshtein距離？

或許還有第三種選擇，我還沒想過呢？

1 個解決方案

聽起來你想要使用某種模糊散列。 有很多哈希函數可以做這樣的事情。 經典的舊“ SOUNDEX ”算法甚至可能有效。

另一個想法 - 如果你估計輸入錯誤的可能性很低，那么你可能實際上很好地直接命中99.9％的時間，回到SOUNDEX，這可能會捕獲90％的剩余案例，然后搜索整個列出剩余0.01％的時間。

還值得檢查這個討論：如何在大型字符串數據庫中找到字符串的最佳模糊匹配

通過哈希比較長字符串

[英]Comparing long strings by their hashes

比較2個散列中的2個已處理密鑰

[英]Comparing between 2 processed keys in 2 hashes

比較基於字符串的Java枚舉

[英]Comparing String-based java enums

用於比較電視節目標題的最合適的字符串距離算法是什么？

[英]What is the most suitable string distance algorithm to use for comparing TV show titles?

將字符串哈希合並到主哈希中

[英]Merge of String hashes into master hash

根據相似性比較字符串？

[英]Comparing strings based on similarity?

將一個字符串與另一個字符串進行比較

[英]Comparing a string to another string

關於比較字符串與字符串

[英]About Comparing String With String

正則表達式用於可選引號，哈希數組和空字符串

[英]Regex for optional quotes, array of hashes and empty string

Python-根據Levenshtein距離，將最接近的字符串從列表A分配到列表B-（最好是使用熊貓）

[英]Python - Assign the closest string from List A to List B based on Levenshtein distance - (ideally with pandas)

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 通過哈希比較長字符串比較2個散列中的2個已處理密鑰比較基於字符串的Java枚舉用於比較電視節目標題的最合適的字符串距離算法是什么？將字符串哈希合並到主哈希中根據相似性比較字符串？將一個字符串與另一個字符串進行比較關於比較字符串與字符串正則表達式用於可選引號，哈希數組和空字符串 Python-根據Levenshtein距離，將最接近的字符串從列表A分配到列表B-（最好是使用熊貓）

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM