![](/img/trans.png)
[英]Unordered_map of unordered_map vs custom hash function for pair key C++?
[英]C++ unordered_map using a custom class type as the key
我正在尝试使用自定义 class 作为unordered_map
的键,如下所示:
#include <iostream>
#include <algorithm>
#include <unordered_map>
using namespace std;
class node;
class Solution;
class Node {
public:
int a;
int b;
int c;
Node(){}
Node(vector<int> v) {
sort(v.begin(), v.end());
a = v[0];
b = v[1];
c = v[2];
}
bool operator==(Node i) {
if ( i.a==this->a && i.b==this->b &&i.c==this->c ) {
return true;
} else {
return false;
}
}
};
int main() {
unordered_map<Node, int> m;
vector<int> v;
v.push_back(3);
v.push_back(8);
v.push_back(9);
Node n(v);
m[n] = 0;
return 0;
}
但是,g++ 给我以下错误:
In file included from /usr/include/c++/4.6/string:50:0,
from /usr/include/c++/4.6/bits/locale_classes.h:42,
from /usr/include/c++/4.6/bits/ios_base.h:43,
from /usr/include/c++/4.6/ios:43,
from /usr/include/c++/4.6/ostream:40,
from /usr/include/c++/4.6/iostream:40,
from 3sum.cpp:4:
/usr/include/c++/4.6/bits/stl_function.h: In member function ‘bool std::equal_to<_Tp>::operator()(const _Tp&, const _Tp&) const [with _Tp = Node]’:
/usr/include/c++/4.6/bits/hashtable_policy.h:768:48: instantiated from ‘bool std::__detail::_Hash_code_base<_Key, _Value, _ExtractKey, _Equal, _H1, _H2, std::__detail::_Default_ranged_hash, false>::_M_compare(const _Key&, std::__detail::_Hash_code_base<_Key, _Value, _ExtractKey, _Equal, _H1, _H2, std::__detail::_Default_ranged_hash, false>::_Hash_code_type, std::__detail::_Hash_node<_Value, false>*) const [with _Key = Node, _Value = std::pair<const Node, int>, _ExtractKey = std::_Select1st<std::pair<const Node, int> >, _Equal = std::equal_to<Node>, _H1 = std::hash<Node>, _H2 = std::__detail::_Mod_range_hashing, std::__detail::_Hash_code_base<_Key, _Value, _ExtractKey, _Equal, _H1, _H2, std::__detail::_Default_ranged_hash, false>::_Hash_code_type = long unsigned int]’
/usr/include/c++/4.6/bits/hashtable.h:897:2: instantiated from ‘std::_Hashtable<_Key, _Value, _Allocator, _ExtractKey, _Equal, _H1, _H2, _Hash, _RehashPolicy, __cache_hash_code, __constant_iterators, __unique_keys>::_Node* std::_Hashtable<_Key, _Value, _Allocator, _ExtractKey, _Equal, _H1, _H2, _Hash, _RehashPolicy, __cache_hash_code, __constant_iterators, __unique_keys>::_M_find_node(std::_Hashtable<_Key, _Value, _Allocator, _ExtractKey, _Equal, _H1, _H2, _Hash, _RehashPolicy, __cache_hash_code, __constant_iterators, __unique_keys>::_Node*, const key_type&, typename std::_Hashtable<_Key, _Value, _Allocator, _ExtractKey, _Equal, _H1, _H2, _Hash, _RehashPolicy, __cache_hash_code, __constant_iterators, __unique_keys>::_Hash_code_type) const [with _Key = Node, _Value = std::pair<const Node, int>, _Allocator = std::allocator<std::pair<const Node, int> >, _ExtractKey = std::_Select1st<std::pair<const Node, int> >, _Equal = std::equal_to<Node>, _H1 = std::hash<Node>, _H2 = std::__detail::_Mod_range_hashing, _Hash = std::__detail::_Default_ranged_hash, _RehashPolicy = std::__detail::_Prime_rehash_policy, bool __cache_hash_code = false, bool __constant_iterators = false, bool __unique_keys = true, std::_Hashtable<_Key, _Value, _Allocator, _ExtractKey, _Equal, _H1, _H2, _Hash, _RehashPolicy, __cache_hash_code, __constant_iterators, __unique_keys>::_Node = std::__detail::_Hash_node<std::pair<const Node, int>, false>, std::_Hashtable<_Key, _Value, _Allocator, _ExtractKey, _Equal, _H1, _H2, _Hash, _RehashPolicy, __cache_hash_code, __constant_iterators, __unique_keys>::key_type = Node, typename std::_Hashtable<_Key, _Value, _Allocator, _ExtractKey, _Equal, _H1, _H2, _Hash, _RehashPolicy, __cache_hash_code, __constant_iterators, __unique_keys>::_Hash_code_type = long unsigned int]’
/usr/include/c++/4.6/bits/hashtable_policy.h:546:53: instantiated from ‘std::__detail::_Map_base<_Key, _Pair, std::_Select1st<_Pair>, true, _Hashtable>::mapped_type& std::__detail::_Map_base<_Key, _Pair, std::_Select1st<_Pair>, true, _Hashtable>::operator[](const _Key&) [with _Key = Node, _Pair = std::pair<const Node, int>, _Hashtable = std::_Hashtable<Node, std::pair<const Node, int>, std::allocator<std::pair<const Node, int> >, std::_Select1st<std::pair<const Node, int> >, std::equal_to<Node>, std::hash<Node>, std::__detail::_Mod_range_hashing, std::__detail::_Default_ranged_hash, std::__detail::_Prime_rehash_policy, false, false, true>, std::__detail::_Map_base<_Key, _Pair, std::_Select1st<_Pair>, true, _Hashtable>::mapped_type = int]’
3sum.cpp:149:5: instantiated from here
/usr/include/c++/4.6/bits/stl_function.h:209:23: error: passing ‘const Node’ as ‘this’ argument of ‘bool Node::operator==(Node)’ discards qualifiers [-fpermissive]
make: *** [threeSum] Error 1
我想,我需要告诉 C++ 如何 hash class Node
,但是,我不太确定该怎么做。 我怎样才能完成这个任务?
为了能够将std::unordered_map
(或其他无序关联容器之一)与用户定义的键类型一起使用,您需要定义两件事:
一个哈希函数; 这必须是一个覆盖operator()
并计算给定键类型对象的哈希值的类。 一种特别直接的方法是为您的键类型专门化std::hash
模板。
相等的比较函数; 这是必需的,因为散列不能依赖这样一个事实,即散列函数将始终为每个不同的键提供唯一的散列值(即,它需要能够处理冲突),因此它需要一种方法来比较两个给定的键精确匹配。 您可以将其实现为覆盖operator()
的类,或者作为std::equal
,或者 - 最简单的 - 通过为您的键类型重载operator==()
(就像您已经做过的那样)。
散列函数的困难在于,如果您的键类型由多个成员组成,您通常会让散列函数计算各个成员的散列值,然后以某种方式将它们组合成整个对象的一个散列值。 为了获得良好的性能(即,很少发生冲突),您应该仔细考虑如何组合各个散列值,以确保避免频繁为不同的对象获得相同的输出。
散列函数的一个相当好的起点是使用位移位和按位异或来组合各个散列值。 例如,假设这样的键类型:
struct Key
{
std::string first;
std::string second;
int third;
bool operator==(const Key &other) const
{ return (first == other.first
&& second == other.second
&& third == other.third);
}
};
这是一个简单的哈希函数(改编自cppreference 示例中用于用户定义的哈希函数的函数):
namespace std {
template <>
struct hash<Key>
{
std::size_t operator()(const Key& k) const
{
using std::size_t;
using std::hash;
using std::string;
// Compute individual hash values for first,
// second and third and combine them using XOR
// and bit shifting:
return ((hash<string>()(k.first)
^ (hash<string>()(k.second) << 1)) >> 1)
^ (hash<int>()(k.third) << 1);
}
};
}
有了这个,您可以为键类型实例化一个std::unordered_map
:
int main()
{
std::unordered_map<Key,std::string> m6 = {
{ {"John", "Doe", 12}, "example"},
{ {"Mary", "Sue", 21}, "another"}
};
}
它将自动使用上面定义的std::hash<Key>
进行哈希值计算,并将operator==
定义为Key
成员函数进行相等性检查。
如果您不想在std
命名空间内专门化模板(尽管在这种情况下它是完全合法的),您可以将哈希函数定义为一个单独的类并将其添加到映射的模板参数列表中:
struct KeyHasher
{
std::size_t operator()(const Key& k) const
{
using std::size_t;
using std::hash;
using std::string;
return ((hash<string>()(k.first)
^ (hash<string>()(k.second) << 1)) >> 1)
^ (hash<int>()(k.third) << 1);
}
};
int main()
{
std::unordered_map<Key,std::string,KeyHasher> m6 = {
{ {"John", "Doe", 12}, "example"},
{ {"Mary", "Sue", 21}, "another"}
};
}
如何定义更好的哈希函数? 如上所述,定义一个好的散列函数对于避免冲突和获得良好的性能很重要。 对于真正好的一个,您需要考虑所有字段的可能值的分布,并定义一个散列函数,将该分布投影到尽可能宽且分布均匀的可能结果空间。
这可能很困难; 上面的异或/位移方法可能不是一个糟糕的开始。 对于一个稍微好一点的开始,您可以使用hash_value
和hash_combine
函数模板从Boost库。 前者的作用与标准类型的std::hash
类似(最近还包括元组和其他有用的标准类型); 后者可帮助您将单个哈希值合并为一个。 这是使用 Boost 辅助函数的哈希函数的重写:
#include <boost/functional/hash.hpp>
struct KeyHasher
{
std::size_t operator()(const Key& k) const
{
using boost::hash_value;
using boost::hash_combine;
// Start with a hash value of 0 .
std::size_t seed = 0;
// Modify 'seed' by XORing and bit-shifting in
// one member of 'Key' after the other:
hash_combine(seed,hash_value(k.first));
hash_combine(seed,hash_value(k.second));
hash_combine(seed,hash_value(k.third));
// Return the result.
return seed;
}
};
这是一个不使用 boost 的重写,但使用了组合散列的好方法:
namespace std
{
template <>
struct hash<Key>
{
size_t operator()( const Key& k ) const
{
// Compute individual hash values for first, second and third
// http://stackoverflow.com/a/1646913/126995
size_t res = 17;
res = res * 31 + hash<string>()( k.first );
res = res * 31 + hash<string>()( k.second );
res = res * 31 + hash<int>()( k.third );
return res;
}
};
}
我认为, jogojapan给出了一个非常好的和详尽的答案。 在阅读我的帖子之前,您绝对应该先看看它。 但是,我想添加以下内容:
unordered_map
单独定义一个比较函数,而不是使用相等比较运算符 ( operator==
)。 这可能会有所帮助,例如,如果您想使用后者来比较两个Node
对象的所有成员,但只有一些特定成员作为unordered_map
键。 总而言之,对于你的Node
类,代码可以写成如下:
using h = std::hash<int>;
auto hash = [](const Node& n){return ((17 * 31 + h()(n.a)) * 31 + h()(n.b)) * 31 + h()(n.c);};
auto equal = [](const Node& l, const Node& r){return l.a == r.a && l.b == r.b && l.c == r.c;};
std::unordered_map<Node, int, decltype(hash), decltype(equal)> m(8, hash, equal);
笔记:
使用自定义类作为unordered_map
键(稀疏矩阵的基本实现)的最基本的可能复制/粘贴完整的可运行示例:
// UnorderedMapObjectAsKey.cpp
#include <iostream>
#include <vector>
#include <unordered_map>
struct Pos
{
int row;
int col;
Pos() { }
Pos(int row, int col)
{
this->row = row;
this->col = col;
}
bool operator==(const Pos& otherPos) const
{
if (this->row == otherPos.row && this->col == otherPos.col) return true;
else return false;
}
struct HashFunction
{
size_t operator()(const Pos& pos) const
{
size_t rowHash = std::hash<int>()(pos.row);
size_t colHash = std::hash<int>()(pos.col) << 1;
return rowHash ^ colHash;
}
};
};
int main(void)
{
std::unordered_map<Pos, int, Pos::HashFunction> umap;
// at row 1, col 2, set value to 5
umap[Pos(1, 2)] = 5;
// at row 3, col 4, set value to 10
umap[Pos(3, 4)] = 10;
// print the umap
std::cout << "\n";
for (auto& element : umap)
{
std::cout << "( " << element.first.row << ", " << element.first.col << " ) = " << element.second << "\n";
}
std::cout << "\n";
return 0;
}
对于枚举类型,我认为这是一种合适的方式,而类之间的区别在于如何计算哈希值。
template <typename T>
struct EnumTypeHash {
std::size_t operator()(const T& type) const {
return static_cast<std::size_t>(type);
}
};
enum MyEnum {};
class MyValue {};
std::unordered_map<MyEnum, MyValue, EnumTypeHash<MyEnum>> map_;
STL 不提供对的散列函数。 您需要自己实现它并指定为模板参数或放入命名空间 std,从那里它会被自动拾取。 遵循https://github.com/HowardHinnant/hash_append/blob/master/n3876.h对于为结构实现自定义哈希函数非常有用。 更多细节在这个问题的其他答案中有很好的解释,所以我不会重复。 Boost 中也有类似的东西( hash_combine
)。
查看以下链接https://www.geeksforgeeks.org/how-to-create-an-unordered_map-of-user-defined-class-in-cpp/了解更多详情。
这里的答案非常有帮助,但我仍在努力尝试解决这个问题,所以也许我的经验教训会有所帮助。 与 OP 相比,我的情况有点独特; 我的key
是我不拥有的自定义 UUID class。 在我认为的错误/疏忽中,这个 class没有定义 hash function 或operator()
的重载(它确实定义了operator==
,所以我被设置在那里)。 是的,我有源代码,但它被广泛分发和控制,所以修改它是行不通的。 我想将此 UUID 用作std::unordered_map
成员中的键,例如
std::unordered_map<UUID, MyObject> mapOfObjs_;
在 Visual Studio 中,我最终选择了这个解决方案:
// file MyClass.h
namespace myNamespace
{
static auto staticUuidHashFunc = [](const UUID& n)
{
// XORed the most and least significant bits, not important
}
...
class MyClass
{
...
private:
std::unordered_map<UUID, std::unique_ptr<MyObject>, decltype(staticUuidHashFunc)> mapOfObjs_;
};
}
这在 Windows 中非常有效。但是,当我最终在 linux 中将我的代码带到 gcc 时,我收到了警告(释义)
'MyClass'
有一个字段'mapOfObjs_'
,其类型使用匿名命名空间
我什至在禁用所有警告的情况下收到此警告,因此 gcc 必须认为它非常严重。 我四处搜索并找到了这个答案,这表明我需要将 hash function 代码移动到 .cpp 文件。
此时,我还尝试从 UUID class 派生:
// file MyClass.h
namespace myNamespace
{
struct myUuid : public UUID
{
// overload the operator()
};
...
// and change my map to use this type
std::unordered_map<myUuid, std::unique_ptr<MyObject>> mapOfObjs_;
}
然而,这也带来了一系列问题。 即,使用(现在的父级) UUID
class 的所有代码部分都与我的 map 不兼容,例如:
void MyClass::FindUuid(const UUID& id)
{
// doesn't work, can't convert `id` to a `myUuid` type
auto it = mapOfObjs_.find(id);
...
}
现在坏了。 我不想更改所有这些代码,所以我放弃了它并回到了“将代码放入 .cpp 文件”的解决方案。 然而,顽固地,我仍然尝试了一些方法来将 hash function 保留在 .h 文件中。 我真正想要避免的是从 hash function 定义中删除auto
,因为我不知道也不想弄清楚类型是什么。 所以我尝试了:
class MyClass
{
...
private:
static auto staticUuidHashFunc = [](const UUID& n)
{
// my hash function
}
};
但是这个(或这个的变体)返回错误,比如“类中不能有 static 初始值设定项”,“不能在这里使用auto
”等(我有一个硬性的 C++11 要求)。 所以我终于接受我需要像对待static
变量一样对待它,在 header 中声明它,并在 .cpp 文件中初始化它。 一旦我弄清楚了它的类型,它就很简单了:
// MyClass.h
namespace myNamespace
{
class MyClass
{
...
private:
static std::function<unsigned long long(const UUID&)> staticUuidHashFunc;
std::unordered_map<UUID, std::unique_ptr<MyObject>, decltype(staticUuidHashFunc)> mapOfObjs_;
};
}
最后在 .cpp 文件中:
// MyClass.cpp
namespace myNamespace
{
std::function<unsigned long long(const UUID&)> MyClass::staticUuidHashFunc = [](const UUID& n)
{
// the hash function
};
MyClass::MyClass()
: mapOfObjs_{ std::unordered_map<UUID, std::unique_ptr<MyObject>, decltype(staticUuidHashFunc)> (MyClass::NUMBER_OF_MAP_BUCKETS, staticUuidHashFunc)}
{ }
...
}
在.cpp文件中定义static hash function是关键。 之后,Visual Studio 和 gcc 都很开心。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.