繁体   English   中英

聚类问题

Clustering problem

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

考虑到群集受某个大小限制,我的任务是查找包含特定数据集最多点的N个群集。 当前,我正在尝试通过将数据插入kd树,对数据进行迭代并找到其最近的邻居,然后合并这些点(如果它们构成的群集不超过限制)来实现此目的。 我不确定这种方法是否能为我提供一个全球解决方案,所以我正在寻找调整方法。 如果您能告诉我这将是什么类型的问题,那也很好。

3 个回复

请查看scipy.clustering以获取开始。 然后,关键词搜索可以提供有关此处使用的不同算法的大量信息。 集群是一个很大的领域,有大量的研究和实际应用,并且发现许多简单的方法都可以很好地工作,因此您可能不希望自己动手做。

这就是说,聚类算法通常很容易编程,如果您确实想自己编程,则k-means和聚集聚类是最容易执行的操作。

最后,我不确定您对由特定大小限制的N个群集的想法是否自洽,但是这完全取决于您所说的“大小”和“群集”的含义(群集是单点吗?) 。

更新:

遵循OP在下面的评论,我认为标准的聚类方法不会为该问题提供最佳的解决方案,因为对于可优化的点之间的“距离”没有连续的度量标准。 尽管在某些情况下它们可能会提供很好的解决方案或近似值。 对于聚类方法,我会尝试k-means,因为该方法的前提是具有固定的N。

但是,与其说是聚类,不如说是一个覆盖问题 ,您有N个固定大小的矩形,并且您试图用它们覆盖所有点),但是我对此并不了解很多,所以我留给别人

如果集群的数量是固定的,而您只想最大化这些集群中的点数,那么我认为贪婪的解决方案将是不错的选择:

  • 找到可以包含最大点数的矩形,
  • 删除这些点,
  • 找到下一个矩形
  • ...

那么,如何查找包含最大点数的最大面积为A的矩形(实际上每个矩形都具有该面积)?

对于欧几里得距离,矩形并不是真正常见的方法,在尝试解决这个问题之前,您是否可以确定是否确实需要矩形或仅对群集大小有一定限制? 圆/椭圆会起作用吗?

编辑 :贪婪将不起作用(请参阅下面的评论),它确实需要是矩形...

链接文本实际上,我认为有两个关键假设确实很容易。

1)假设“一定大小”,我们可以说“任何簇必须完全包含在半径为r的圆内”。

2)您所有的点都是群集中心的候选“种子”点。

首先计算所有点之间所有小于r的距离。 现在,仅使用小于r的可行边来解决集合覆盖问题。 如果任何点的最近邻居大于r距离,它将形成自己的簇。

1 聚类问题

嗨,每个人都可以告诉我如何连接两台不在同一操作系统上运行的计算机,这意味着如何将一台运行linux的计算机连接到运行Windows的计算机,或者从技术上讲如何使一个多源集群或不同集群硬件或其他操作系统。 如果有人对此有任何了解,请告诉我,我将对此表示感谢。 ...

2 聚类后​​的聚类分配问题

我在理解k均值聚类中的聚类分配时遇到问题。 具体来说,我知道该点已分配给最近的聚类(到聚类中心的最短距离),但是我无法重现结果。 细节在下面给出。 假设我有一个数据帧df1 : 在该数据帧上,我想执行k均值聚类(带有缩放): 聚类完成后,我可以将聚类分配给原始数据帧: ...

3 elasticsearch聚类问题

我在集群中使用了两个ES节点(ES版本1.0.1),需要澄清以下几点: 当我启动应用程序并将其连接到两个节点时,我可以看到两个节点都服务于请求,但是当我停止其中一个服务器时,它会引发异常,而其他节点仍然可以正常工作,但仍有50%的请求仍会出现异常,并且整个流量不会转移到运行节点。 我 ...

4 关于聚类方法的问题

最近我开始研究数据挖掘中的聚类,我研究了顺序聚类和层次聚类以及k-means。 我还读到了一个区分k-means和其他两种聚类技术的陈述,说k-means在处理名义属性方面不是很好,但是文本没有解释这一点。到目前为止,唯一的区别就是我可以看出,对于K-means,我们事先会知道我们将需要确 ...

5 在 docker 上聚类 Artemis 的问题

我正在尝试获得一个在两个节点的 docker 上工作的简单集群示例。 我使用了示例中的示例broker.xml文件。 由于它们在同一台主机上运行,​​因此我更改了第二个实例的端口。 这些端口在 docker 上公开并映射。 但是,当实例启动并尝试相互联系时,我收到无法连接到目标的警告。 我尝 ...

6 速度聚类问题

在多个tomcat在Load Balancer下运行的集群环境中,我们遇到了一个问题,我们假设它可能是一个速度引擎,当环境从简单节点移动到集群时需要某种配置。 这就是我遇到的情况,如果按照以下步骤可以复制。 步骤是; 例如,在集群开发环境中,开发人员有两个不同的(虚拟)服务器,每个服务 ...

7 图像聚类-MATLAB函数问题

我目前正在写一个有关图像识别和聚类的项目。 在作为我的项目基础的出版物中,存在以下等式 变量说明如下 Rj-是第j个簇的旋转矩阵 t_j-是第j个簇的转换向量 p * ij-是第j个簇的第i个点 x_i-是图像中的第i个点 我在编写此函数时遇到 ...

8 执行K表示聚类的问题

我正在尝试将CS​​V文件中的以下数据与K进行聚类。 它基本上是一张图,其中“样本”为节点,数字为“边”(权重)。 我读取文件如下: 我使用了以下代码: https : //gist.github.com/betzerra/8744068 这里基于以下内容构建集群: ...

9 时间序列数据聚类有问题吗?

我想对200种加密货币进行聚类分析,并使用“ tslearn”模块。 每种货币都有365条记录,但某些货币较少。我喜欢使用3种聚类分析方法进行比较。 我的问题是 重心计算属于聚类分析方法吗? 如果是,此方法可以将货币数据聚类吗? 有验证K值的功能吗? 用于确定最适合 ...

10 培训tesseract-聚类问题

我正在尝试按照此处的说明训练tesseract(添加新的仅数字字体): http : //code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3 我所做的: 创建带有示例文本的PDF,将其转换为tif,然后运行tessera ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM