soundex算法的数据结构？

Question

谁能为我建议在soundex算法程序中使用哪种数据结构？ 使用的语言是Java。 如果有人以前用Java进行过这项工作。 该程序应具有以下功能：能够读取大约50,000个单词，应该能够阅读一个单词并返回具有相同soundex的相关单词

我不希望程序实现只提供关于使用哪种数据结构的建议。

Answer 1

提示：如果将SQL用作数据后端，则可以让SQL使用两个SQL函数SOUNDEX和DIFFERENCE处理它。

也许不是您想要的，但是许多人不知道MSsql具有这两个功能。

Answer 2

好了soundex可以通过直接传递给字符串来实现，因此不需要任何特殊的操作。

之后，可以将4个字符的代码视为整数键。

然后，只需构建一个字典即可存储由该整数键索引的单词集。 50,000个单词应该很容易装入内存，因此不需要花哨的东西。

然后浏览字典，每个存储桶都是一组相似的发音的单词。

实际上，这是perl中的整个程序：

#!/usr/bin/perl
use Text::Soundex;
use Data::Dumper;
open(DICT,"</usr/share/dict/linux.words");
my %dictionary = ();
while (<DICT>) {
        chomp();
        chomp();
        push @{$dictionary{soundex($_)}},$_;
}
close(DICT);
while (<>) {
        my @words = split / +/;
        foreach (@words) {
            print Dumper $dictionary{soundex($_)};
        }
}

Answer 3

我相信您只需要将原始字符串转换为soundex键，再转换为哈希表即可； 表中每个条目的值将是映射到该soundex的原始字符串的集合。

Google收藏夹中的MultiMap收藏界面（及其实现）将对您有用。

Answer 4

class SpellChecker
{

  interface Hash {
    String hash(String);
  }

  private final Hash hash;

  private final Map<String, Set<String>> collisions;

  SpellChecker(Hash hash) {
    this.hash = hash;
    collisions = new TreeSet<String, Set<String>>();
  }

  boolean addWord(String word) {
    String key = hash.hash(word);
    Set<String> similar = collisions.get(key);
    if (similar == null)
      collisions.put(key, similar = new TreeSet<String>());
    return similar.add(word);
  }

  Set<String> similar(String word) {
    Set<String> similar = collisions.get(hash.hash(word));
    if (similar == null)
      return Collections.emptySet();
    else
      return Collections.unmodifiableSet(similar);
  }

}

哈希策略可以是Soundex，Metaphone或您拥有的东西。 有些策略可能是可调的（输出多少个字符，等等）。

Answer 5

由于soundex是哈希，因此我将使用以soundex为键的哈希表。

Answer 6

您需要一个4字节的整数。

soundex算法始终返回4个字符的代码，如果使用ANSI输入，则会返回4个字节（以4个字母表示）。

因此，将返回的代码存储在哈希表中，将您的单词转换为代码，然后在哈希表中查找它。 真的很容易。

soundex算法的数据结构？

问题描述

6 个解决方案

解决方案1
3 2008-11-06 23:34:44

解决方案2
2 2008-11-06 23:35:13

解决方案3
1 2008-11-06 23:34:30

解决方案4
1 2008-11-07 00:13:18

解决方案5
0 2008-11-06 23:35:18

解决方案6
0 2009-01-01 15:48:38

soundex算法的数据结构？

问题描述

6 个解决方案

解决方案1 3 2008-11-06 23:34:44

解决方案2 2 2008-11-06 23:35:13

解决方案3 1 2008-11-06 23:34:30

解决方案4 1 2008-11-07 00:13:18

解决方案5 0 2008-11-06 23:35:18

解决方案6 0 2009-01-01 15:48:38

解决方案1
3 2008-11-06 23:34:44

解决方案2
2 2008-11-06 23:35:13

解决方案3
1 2008-11-06 23:34:30

解决方案4
1 2008-11-07 00:13:18

解决方案5
0 2008-11-06 23:35:18

解决方案6
0 2009-01-01 15:48:38