[英]How to implement a fast fuzzy-search engine using BK-trees when the corpus has 10 billion unique DNA sequences?
我正在嘗試使用 python 中的BK-tree數據結構來存儲具有約 100 億個條目( 1e10 )的語料庫,以實現快速模糊搜索引擎。 一旦我將超過 1000 萬( 1e7 )個值添加到單個 BK 樹中,我開始看到查詢性能顯着下降。 我正在考慮將語料庫存儲到一千棵 BK 樹的森林中並並行查詢它們 ...