簡體 English 中英

如何強制聚類算法匹配預期結果？

[英]How to force a clustering algorithm to match expected results?

原文 2019-07-01 13:05:32 5 2 r/ machine-learning/ cluster-analysis

我有2個具有多個變量的數據集（data_A和data_B）。 有2個可能的輸出（pheno_1和pheno_2）。 我知道data_A的pheno_1幾乎為100％，data_B的pheno_1約為50％。 但是數據集未標記。 我正在尋找一種聚類或分類算法，以使其與我的預期結果相匹配的方式對我的數據進行聚類。 然后，我將使用聚類預測不同數據集的輸出。

到目前為止，我正在使用K-Means並嘗試使用不同的變量集和不同的規范化方法，以獲得最終結果。 我想找出一個“自動”方法，嘗試不同的組合，直到找到我想要的東西為止。

目前沒有代碼顯示。

2 個解決方案

在R軟件包ConsensusClusterPlus中，他們使發現簇的過程自動化，從而消除了K均值的隨機性，並測試了多個K值。

當涉及到您的問題時，我建議：

在data_B上運行共識集群
對於每個K群集，計算“共識”質心
對於data_A中的每個樣本，請計算到步驟2到質心的距離，並將每個樣本分配給最接近的質心。
現在，您可以為data_A和data_B中的所有數據分配標簽/簇，您可以使用隨機森林或XGboost訓練分類器。

您可以查看約束K均值。 這是一個R 包和解釋其背后原理的論文。 它應該允許您指定k個約束，您可以在其中確定每個群集的限制。

R聚類結果不符合預期-我是否誤解了/誤用了什么？

[英]R clustering results not as expected - have i misunderstood/misused anything?

對組進行采樣以匹配預期比例的算法

[英]Algorithm to sample groups to match expected proportions

如何總結 R 中的 pam 聚類結果？

[英]How to summarise pam clustering results in R?

如何更改 R 中 heatmap.2 函數的聚類算法？

[英]How do I change the clustering algorithm for heatmap.2 function in R?

如何使用clv和clValid找到最佳的聚類算法？

[英]How to use clv and clValid to find the best clustering algorithm?

覆蓋聚類會導致整理

[英]Overlaying clustering results on an ordination

在 R 中查找聚類結果

[英]Finding clustering results in R

sk-means聚類-如何獲得聚類結果

[英]sk-means clustering - how to get the cluster results

如何將mclust的聚類結果寫入文件？

[英]How can I write the clustering results from mclust to file?

R：聚類算法的特殊要求

[英]R: Special requirements for a clustering algorithm

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 R聚類結果不符合預期-我是否誤解了/誤用了什么？對組進行采樣以匹配預期比例的算法如何總結 R 中的 pam 聚類結果？如何更改 R 中 heatmap.2 函數的聚類算法？如何使用clv和clValid找到最佳的聚類算法？覆蓋聚類會導致整理在 R 中查找聚類結果 sk-means聚類-如何獲得聚類結果如何將mclust的聚類結果寫入文件？ R：聚類算法的特殊要求

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM