[英]comparing vectors in a large data set
我有一个整数类型的二维向量,其中包含大量向量(即18000
及以上),并且在此池中有大量重复向量。 我要做的是检测相似的向量并删除其中之一。 我现在正在做的是使用以下函数将每个向量与整个池进行比较:
bool compareVectors(vector<int> a, vector<int> b)
{
if (a.size() != b.size())
{
return false;
}
sort(a.begin(), a.end());
sort(b.begin(), b.end());
return (a == b);
}
但是,由于我进行了大量的比较,这大概不能有效地完成该过程。 有没有可能有效的方法来做到这一点?
从(子)向量的规范化(此处为排序)版本中构建一个set
或unordered_set
。 然后,您可以在O ( mn log m log n )时间中找到所有重复项,其中m和n分别是数据的外部和内部维度。
您可能希望使用映射来存储每个等效类的第一个代表的索引。 您可以使用reserve
从unordered_set
运行时间中删除日志m 。
准备工作:
从i = 0开始
递归算法:
对于每个桶:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.