标签[cluster-analysis] - 堆栈内存溢出

如何按不同模式拆分集群中的时间序列？ - How to split time series in clusters by different patterns?

这是一个更大数据的示例，其中包含许多数据框，类似于下面的数据框 (df_final)：您可以看到该信号有两种模式（一种“恒定”，另一种增加）：有没有一种方法可以自动创建一个标志/集群来拆分这个信号？在此示例中，我将在深度 2000 之前有一个集群，在深度 2000 之后有其他集群。另一个 ...

在 R 中使用 nomclust 创建带有集群分配的 dataframe - Create dataframe with cluster assignment using nomclust in R

我正在使用nomclust对标称数据运行层次聚类分析。为了解释我需要什么，我正在使用数据集CA.methods ，它位于同一个 package 中。我将运行nomclust() function，稍后我将使用dend.plot()和三个集群运行 plot。这是 plot 的结果：我需要的基 ...

用于不均匀间隔的顺序分类数据的无监督聚类算法？ - Unsupervised clustering algorithm for unevenly spaced sequential categorical data?

我正在寻找一种能够处理时间相关数据的技术/方法/算法（每个样本有 20 个时间步长，但在大多数情况下它们在样本之间出现不均匀，即一个样本的值可能为 0.4 秒而另一个样本可能不会）。时间步长的值本身对应于发生肌肉激活的身体上的分类 position（范围从 1-20）。所以数据类似于，（时间， ...

使用箱线图检查哪些是区分集群的特征 - Check which are the features that differentiate between clusters, using a boxplot

我对我的data应用了 UMAP 降维，并将其聚类。我得到了三个不同的集群：我有指定 eahc 样本属于哪个集群的数据，以及样本的名称和所有内容。这是它的一个子样本，我们称之为df_cluster ： df_cluster的样本与我用于聚类的原始数据data相同。这基本上只是您看到的行样 ...

如何使用sklearn为凝聚聚类指定memory目录 - How to specify the memory directory for Agglomerative clustering using sklearn

我正在尝试使用 sklearn 的AgglomerativeClustering优化用于计算同一数据集上具有不同数量集群的多个结果的计算时间。如https://stackoverflow.com/questions/36490241/sklearn-agglomerative-clustering ...

我如何替换固定条件以获得用于某些计算的聚类 EPS？ - How could I replace fixed conditions to get clustering EPS for some calculation?

我使用 DBSCAN 的 function 进行聚类，它将 EPS 值作为参数（定义哪些点将被组合在一起的半径）。要设置 EPS，我使用以下开关盒： let eps = 0; switch (true) { case (zoom === 20): eps ...

我将如何从 Levenshtein 相似矩阵制作聚类？ - How would I make clusters from a Levenshtein similarity matrix?

我有一个单词的相似度矩阵，想应用一种可以将单词聚类的算法。这是我到目前为止的例子：显然这是一个非常简单的虚拟示例，但我希望 output 是 2 个集群，一个是“单身汉”、“单身女郎”、“单身汉特别”，另一个是“运动中心”、“运动中心”晚上 8 点”，“周日体育中心”。谁能帮我这个？ ...

如何使用坐标值的 Y 轴值将坐标值聚类到行中？ - How can I cluster coordinate values into rows using their Y-axis value?

目前我有一个 dataframe 的 XY 坐标，代表在 OpenCV Python 中检测到的一些圆。这些圆形成不同的行和列，我想将它们逐行聚类。然而，有时这些坐标会像下面看到的那样稍微旋转。旋转可以是顺时针和逆时针。将这些坐标逐行分组在一起的最简单方法是什么？这是一个示例 data ...

Kmeans聚类算法如何操作聚类数据点 - How to manipulate cluster data point of Kmeans clustering algorithm

在 Kmeans 聚类中，我们可以定义聚类的数量。但是是否可以定义 cluster_1 将包含 20% 的数据，cluster_2 将包含 30%，cluster_3 将包含 rest 个数据点？我尝试在 python 之前完成，但没有成功。 ...

从Python Gaussian Mixture Model PCA后聚类中获取标签 - Get labels out of Python Gaussian Mixture Model clustering after PCA

我有一个深度学习 model，它提取原始时间序列数据的特征，然后使用 PCA 将维度降为 2D，然后使用 GMM 进行聚类。然后，我计划将我的集群信息用于 label 和 class 信号，我有兴趣在原始数据中寻找这些信号。但是，由于据我了解，我在进行 PCA 后丢失了信息，所以我无法思考如何做 ...

散布 plot 有 20 多个标签和不同的 colors - Scatter plot with more than 20 labels and different colors

我想要 plot 具有 40 个集群的集群结果。我有这段代码：结果是：如您所见，有 20 个 colors 在重复。如何为这些集群分配 40 个不同的 colors？我看过这个链接： Matplotlib color according to class labels 但这并没有解决我 ...

距离矩阵 dist() 中的错误和缺少名称 - Error and lack of names in distance matrix, dist()

我在使用 Minkowski 方法进行算法层次聚类时遇到了一些问题。那是我的代码一切都很好，直到 data_by_country 行。通过运行这个，我得到了一个包含两列的漂亮表格，关于国家名称及其 HICP。此表中没有任何 NA。这是该表的前 6 行。之后，我想根据该表创建距离矩阵。不 ...

3 Files之间的统计和层次分析 - Statistical and hierarchical Analyze between 3 Fileds

我有一个数据集（Excel 文件），包括 District（字符串）、Land Use（字符串）和 Temperature（数字）三个字段。顺便说一句，地区和土地利用的总数是有限的，而温度值是多种多样的。有大约数千条记录，如大数据...... 部分类似于下表：是否有任何自动方法可以根据每个地区 ...

将kmeans model保存到以后相同的数据聚类 - Save kmeans model to future same data clustering

我目前正在对数据集进行聚类。我的问题是，有没有办法保存组的结果，以便将来我可以使用新数据并根据我制作的 kmeans“模型”知道它们属于哪个组？我已经学会了使用 Kmeans，这很有趣，但是当我想知道一个新数据属于什么时，我现在重复整个分析过程。而我想要的是根据旧数据（我们可以称之为训练数据） ...

为什么 sklearn KMeans 在拟合后会更改我的数据集？ - Why does sklearn KMeans changes my dataset after fitting?

我正在使用 sklearn 的 KMeans 对College.csv进行聚类。但是当我适合 KMeans model 时，我的数据集在那之后发生了变化，在使用 KMeans 之前，我使用StandardScaler标准化了数值变量，并使用OneHotEncoder来虚拟分类变量"Private ...

计算相对于分配给它的组或其他组的分数 - calculate the score with respect to the group it was assigned or other

我是 python 的初学者，我有两个数据框如下。第一个 dataframe 代表用户及其向量和组号。 output：第二个 dataframe 表示组号及其向量和变量 (p2) 及其阈值 output：我正在尝试为每个用户计算相对于分配给它的组的分数（S）：其中 k= 组大小，T 是 ...

如何基于选定的成对比较执行单连锁和全连锁聚类？ - How to perform single- and complete-linkage clustering based on selected pairwise compairsons?

假设我有 8 个对象。all_objects = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'] 我使用自定义方法执行了所有成对比较 (8 x 7)。结果，我得到了满足特定相似性标准的配对。pairs = [ ('A', 'B'), ('B', ...

使用 Python 基于其模式对 URL 进行聚类 - Cluster URLs based on their pattern using Python

我是聚类技术的新手，我非常重视您可以为我的问题提供的任何输入。基本上，我想根据结构模式对 URL 进行聚类。例如 cluster1 - 简单的 URL https://domain/path/file cluster2 - 缩短的 URL cluster3 - 重定向 URL .... 簇 ...

评估自组织 map 的分类性能 - Evaluate performance of Self-organizing map for classification

我正在尝试使用自组织 map (SOM) 作为 Iris 数据集上的聚类方法。如何评估此 SOM 的性能？我试图计算 true_labels 和分配之间的 Adjusted Rand Index (ARI)，但我不知道这是否有意义。对于大网格，ARI 似乎收敛到 0。 ...

如何使用 seaborn 有效地 plot 距离矩阵？ - How can I efficiently plot a distance matrix using seaborn?

这个赏金已经结束了。此问题的答案有资格获得+50声望赏金。赏金宽限期在17 小时后结束。 JayJona想让更多人关注这个问题。所以我有一个或多或少的 11.000 条记录的数据集，有 4 个特征，它们都是离散的或连续的。我使用 K-means 执行聚类，然后使用 kmeans.labe ...