我有成千上万的数据点(x,y)来自5到6个不同的来源。 我需要根据特定的距离标准对它们进行唯一分组,以使形成的组应仅包含来自每个源的一个输入,并且组中的每个输入应在特定距离d之内。 形成的组应该是最佳匹配。

  1. 这是群集和最近邻居的组合吗?
  2. 对算法有什么建议?
  3. 是否有任何开源可用?

我看到许多参考文献都说KD树实现和k聚类等。我不确定如何才能适应此特定需求。

  ask by JLK translate from so

本文未有回复,本站智能推荐:

2回复

最近邻居图中第k个邻居的奇怪距离

为了明确起见,我有许多维度的数据集,例如成百上千的数据集可能需要标准化。 我想计算到最近邻居图中第k个邻居的距离。 对于此数据集 ,我计算了第k个最近邻居的平均距离,但结果太大而又奇怪! 例如,当我使用k = 5时,所得到的平均距离为2147266047,而当k增加到12时,则平均距离
1回复

R n 最相似的时间序列 - dwt 聚类/最近邻

所附数据是一个简化示例,因为实际上我有数百人和数百个时间点。 我正在寻找一种方法来确定类似的时间序列。 我在这里有一些代码来确定集群,但这并不是我想要的。 我想要的是,如果我选择了一个人,它将返回 n 个最相似的时间序列的名称。 即,如果 n = 1,并且我输入 Bob 它将返回 Dave,
1回复

Haskell最近的邻居和模式识别

这是我拥有的3个数据集的简化版本: Haskell是否具有用于在数据集之间查找未指定模式的内置功能? 我想在2个或更多数据集上运行我的程序,并让它报告哪些相似,在这种情况下,将是A和B。
1回复

关于“如何从统计学习要素中绘制k-最近邻分类器的决策边界?”的变化。

这是一个与https://stats.stackexchange.com/questions/21572/how-to-plot-decision-boundary-of-ak-nearest-neighbor-classifier-from-elements-o相关的问题 为了完整起见,
3回复

聚类问题

考虑到群集受某个大小限制,我的任务是查找包含特定数据集最多点的N个群集。 当前,我正在尝试通过将数据插入kd树,对数据进行迭代并找到其最近的邻居,然后合并这些点(如果它们构成的群集不超过限制)来实现此目的。 我不确定这种方法是否能为我提供一个全球解决方案,所以我正在寻找调整方法。 如果您能
1回复

存在时提取第二个和第三个邻居的代码,当它们不存在时忽略

我正在尝试使用此代码提取第二个和第三个 K 最近邻。 当它们存在时,我能够得到它们。 当它们不存在时,我收到如下错误:IndexError: index 3 is out of bounds for axis 0 with size 3。 我如何处理有时有邻居而有时没有的问题,可以通过调整此代码
1回复

聚类算法和“扩展”聚类以包括N个最近邻居

这听起来像一个小问题,但是我在网上找不到任何东西。 我们有一组元素abcde 。 对于那些元素,定义了成对的距离。 每个元素都需要处理。 为了处理元素-需要N个最近的邻居。 问题:如何将这些元素分解成M大小大致相等的集合,然后扩展这些集合,以使集合中的每个元素在扩展集合中都具有
1回复

最近邻居和反向最近邻居查询之间的区别

我对最近和反向最近邻居查询之间的区别感到困惑。 来源: http : //users.dcc.uchile.cl/~bebustos/cursos/2010/cc5202/papers/RKV95%20Nearest%20neighbor%20queries.pdf “用户可以