從大型集合中獲取重復項的最佳性能方式是什么<string> ?</string>

Question

我有一個包含許多單詞的大型Set<String> ，例如：

“aaa, cCc, dDD, AAA, bbB, BBB, AaA, CCc, ...”

我想對 Set 中的所有重復單詞進行分組，忽略單詞的大小寫敏感性，然后將它們保存在Vector<Vector<String>>或其他任何內容中，因此每個Vector<String>項都將包含一組相似的單詞，如下所示：

Vector<String> : aaa, AAA, AaA, ...

Vector<String> : cCc, CCc, ...

Vector<String> : bbB, BBB, ...

我關心性能，因為這個 Set 包含很多單詞。

Answer 1

如果您真正關心性能，則不會使用Vector 。 至於排序問題，一種解決方案是使用TreeMap或TreeSet object 並創建一個Comparator器來執行您想要的相等（排序）。

實例化可以是：

new TreeMap<String,LinkedList<String>>(new Comparator<String>() {

   // comparator here

});

用法：

LinkedList<String> entry = map.get(nextKey);
if (entry == null) {
  entry = new LinkedList<String>()
  map.put(nextKey, entry);
}
entry.add(nextKey);

Answer 2

我會創建一個HashMap<String, Vector<String>> hashMap 。 接下來，對於您的集合中的每個“字符串”

if (!hashMap.containsKey(string.toLowerCase()){
     Vector v = new Vector();
     v.add(string);
      hashMap.put(string.toLowerCase(), v);
} else { 
     hashMap.get(string.toLowerCase()).add(string);
}

最后，根據需要創建向量向量，或使用 hashmap.valueSet()

Answer 3

如果您可以選擇Set實現，則可以將TreeSet與Comparator一起使用，比較字符串忽略大小寫。 然后，您將能夠遍歷排序列表並輕松分組重復項。

Answer 4

這會迭代輸入集一次，我懷疑你能比這快得多。 將ArrayList交換為LinkedLists可能會以局部性換取更少的復制，這可能會提高性能，但我對此表示懷疑。 這是代碼：

Set<String> input = new HashSet<String>(Arrays.asList(
    "aaa", "cCc", "dDD", "AAA", "bbB", "BBB", "AaA", "CCc"));

Map<String, List<String>> tmp = new HashMap<String, List<String>>();

for (String s : input) {
    String low = s.toLowerCase();
    List<String> l = tmp.get(low);

    if (l == null) {
        l = new ArrayList<String>();
        tmp.put(low, l);
    }

    l.add(s);
}

final List<List<String>> result = new ArrayList<List<String>>(tmp.values());

從大型集合中獲取重復項的最佳性能方式是什么<string> ?</string>

問題描述

4 個解決方案

解決方案1
2 2011-07-14 12:05:09

解決方案2
0 已采納 2011-07-14 12:05:43

解決方案3
0 2011-07-14 12:06:04

解決方案4
0 2011-07-14 12:09:09

從大型集合中獲取重復項的最佳性能方式是什么<string> ?</string>

問題描述

4 個解決方案

解決方案1 2 2011-07-14 12:05:09

解決方案2 0 已采納 2011-07-14 12:05:43

解決方案3 0 2011-07-14 12:06:04

解決方案4 0 2011-07-14 12:09:09

解決方案1
2 2011-07-14 12:05:09

解決方案2
0 已采納 2011-07-14 12:05:43

解決方案3
0 2011-07-14 12:06:04

解決方案4
0 2011-07-14 12:09:09