標簽[cluster-analysis] - 堆棧內存溢出

[英]How to split time series in clusters by different patterns?

這是一個更大數據的示例，其中包含許多數據框，類似於下面的數據框 (df_final)：您可以看到該信號有兩種模式（一種“恆定”，另一種增加）：有沒有一種方法可以自動創建一個標志/集群來拆分這個信號？在此示例中，我將在深度 2000 之前有一個集群，在深度 2000 之后有其他集群。另一個 ...

在 R 中使用 nomclust 創建帶有集群分配的 dataframe

[英]Create dataframe with cluster assignment using nomclust in R

我正在使用nomclust對標稱數據運行層次聚類分析。為了解釋我需要什么，我正在使用數據集CA.methods ，它位於同一個 package 中。我將運行nomclust() function，稍后我將使用dend.plot()和三個集群運行 plot。這是 plot 的結果：我需要的基 ...

用於不均勻間隔的順序分類數據的無監督聚類算法？

[英]Unsupervised clustering algorithm for unevenly spaced sequential categorical data?

我正在尋找一種能夠處理時間相關數據的技術/方法/算法（每個樣本有 20 個時間步長，但在大多數情況下它們在樣本之間出現不均勻，即一個樣本的值可能為 0.4 秒而另一個樣本可能不會）。時間步長的值本身對應於發生肌肉激活的身體上的分類 position（范圍從 1-20）。所以數據類似於，（時間， ...

使用箱線圖檢查哪些是區分集群的特征

[英]Check which are the features that differentiate between clusters, using a boxplot

我對我的data應用了 UMAP 降維，並將其聚類。我得到了三個不同的集群：我有指定 eahc 樣本屬於哪個集群的數據，以及樣本的名稱和所有內容。這是它的一個子樣本，我們稱之為df_cluster ： df_cluster的樣本與我用於聚類的原始數據data相同。這基本上只是您看到的行樣 ...

如何使用sklearn為凝聚聚類指定memory目錄

[英]How to specify the memory directory for Agglomerative clustering using sklearn

我正在嘗試使用 sklearn 的AgglomerativeClustering優化用於計算同一數據集上具有不同數量集群的多個結果的計算時間。如https://stackoverflow.com/questions/36490241/sklearn-agglomerative-clustering ...

我如何替換固定條件以獲得用於某些計算的聚類 EPS？

[英]How could I replace fixed conditions to get clustering EPS for some calculation?

我使用 DBSCAN 的 function 進行聚類，它將 EPS 值作為參數（定義哪些點將被組合在一起的半徑）。要設置 EPS，我使用以下開關盒： let eps = 0; switch (true) { case (zoom === 20): eps ...

我將如何從 Levenshtein 相似矩陣制作聚類？

[英]How would I make clusters from a Levenshtein similarity matrix?

我有一個單詞的相似度矩陣，想應用一種可以將單詞聚類的算法。這是我到目前為止的例子：顯然這是一個非常簡單的虛擬示例，但我希望 output 是 2 個集群，一個是“單身漢”、“單身女郎”、“單身漢特別”，另一個是“運動中心”、“運動中心”晚上 8 點”，“周日體育中心”。誰能幫我這個？ ...

如何使用坐標值的 Y 軸值將坐標值聚類到行中？

[英]How can I cluster coordinate values into rows using their Y-axis value?

目前我有一個 dataframe 的 XY 坐標，代表在 OpenCV Python 中檢測到的一些圓。這些圓形成不同的行和列，我想將它們逐行聚類。然而，有時這些坐標會像下面看到的那樣稍微旋轉。旋轉可以是順時針和逆時針。將這些坐標逐行分組在一起的最簡單方法是什么？這是一個示例 data ...

Kmeans聚類算法如何操作聚類數據點

[英]How to manipulate cluster data point of Kmeans clustering algorithm

在 Kmeans 聚類中，我們可以定義聚類的數量。但是是否可以定義 cluster_1 將包含 20% 的數據，cluster_2 將包含 30%，cluster_3 將包含 rest 個數據點？我嘗試在 python 之前完成，但沒有成功。 ...

從Python Gaussian Mixture Model PCA后聚類中獲取標簽

[英]Get labels out of Python Gaussian Mixture Model clustering after PCA

我有一個深度學習 model，它提取原始時間序列數據的特征，然后使用 PCA 將維度降為 2D，然后使用 GMM 進行聚類。然后，我計划將我的集群信息用於 label 和 class 信號，我有興趣在原始數據中尋找這些信號。但是，由於據我了解，我在進行 PCA 后丟失了信息，所以我無法思考如何做 ...

散布 plot 有 20 多個標簽和不同的 colors

[英]Scatter plot with more than 20 labels and different colors

我想要 plot 具有 40 個集群的集群結果。我有這段代碼：結果是：如您所見，有 20 個 colors 在重復。如何為這些集群分配 40 個不同的 colors？我看過這個鏈接： Matplotlib color according to class labels 但這並沒有解決我 ...

距離矩陣 dist() 中的錯誤和缺少名稱

[英]Error and lack of names in distance matrix, dist()

我在使用 Minkowski 方法進行算法層次聚類時遇到了一些問題。那是我的代碼一切都很好，直到 data_by_country 行。通過運行這個，我得到了一個包含兩列的漂亮表格，關於國家名稱及其 HICP。此表中沒有任何 NA。這是該表的前 6 行。之后，我想根據該表創建距離矩陣。不 ...

3 Files之間的統計和層次分析

[英]Statistical and hierarchical Analyze between 3 Fileds

我有一個數據集（Excel 文件），包括 District（字符串）、Land Use（字符串）和 Temperature（數字）三個字段。順便說一句，地區和土地利用的總數是有限的，而溫度值是多種多樣的。有大約數千條記錄，如大數據...... 部分類似於下表：是否有任何自動方法可以根據每個地區 ...

將kmeans model保存到以后相同的數據聚類

[英]Save kmeans model to future same data clustering

我目前正在對數據集進行聚類。我的問題是，有沒有辦法保存組的結果，以便將來我可以使用新數據並根據我制作的 kmeans“模型”知道它們屬於哪個組？我已經學會了使用 Kmeans，這很有趣，但是當我想知道一個新數據屬於什么時，我現在重復整個分析過程。而我想要的是根據舊數據（我們可以稱之為訓練數據） ...

為什么 sklearn KMeans 在擬合后會更改我的數據集？

[英]Why does sklearn KMeans changes my dataset after fitting?

我正在使用 sklearn 的 KMeans 對College.csv進行聚類。但是當我適合 KMeans model 時，我的數據集在那之后發生了變化，在使用 KMeans 之前，我使用StandardScaler標准化了數值變量，並使用OneHotEncoder來虛擬分類變量"Private ...

計算相對於分配給它的組或其他組的分數

[英]calculate the score with respect to the group it was assigned or other

我是 python 的初學者，我有兩個數據框如下。第一個 dataframe 代表用戶及其向量和組號。 output：第二個 dataframe 表示組號及其向量和變量 (p2) 及其閾值 output：我正在嘗試為每個用戶計算相對於分配給它的組的分數（S）：其中 k= 組大小，T 是 ...

如何基於選定的成對比較執行單連鎖和全連鎖聚類？

[英]How to perform single- and complete-linkage clustering based on selected pairwise compairsons?

假設我有 8 個對象。all_objects = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'] 我使用自定義方法執行了所有成對比較 (8 x 7)。結果，我得到了滿足特定相似性標准的配對。pairs = [ ('A', 'B'), ('B', ...

使用 Python 基於其模式對 URL 進行聚類

[英]Cluster URLs based on their pattern using Python

我是聚類技術的新手，我非常重視您可以為我的問題提供的任何輸入。基本上，我想根據結構模式對 URL 進行聚類。例如 cluster1 - 簡單的 URL https://domain/path/file cluster2 - 縮短的 URL cluster3 - 重定向 URL .... 簇 ...

評估自組織 map 的分類性能

[英]Evaluate performance of Self-organizing map for classification

我正在嘗試使用自組織 map (SOM) 作為 Iris 數據集上的聚類方法。如何評估此 SOM 的性能？我試圖計算 true_labels 和分配之間的 Adjusted Rand Index (ARI)，但我不知道這是否有意義。對於大網格，ARI 似乎收斂到 0。 ...

如何使用 seaborn 有效地 plot 距離矩陣？

[英]How can I efficiently plot a distance matrix using seaborn?

這個賞金已經結束了。此問題的答案有資格獲得+50聲望賞金。賞金寬限期在17 小時后結束。 JayJona想讓更多人關注這個問題。所以我有一個或多或少的 11.000 條記錄的數據集，有 4 個特征，它們都是離散的或連續的。我使用 K-means 執行聚類，然后使用 kmeans.labe ...