簡體   English   中英

如何強制聚類算法匹配預期結果?

[英]How to force a clustering algorithm to match expected results?

我有2個具有多個變量的數據集(data_A和data_B)。 有2個可能的輸出(pheno_1和pheno_2)。 我知道data_A的pheno_1幾乎為100%,data_B的pheno_1約為50%。 但是數據集未標記。 我正在尋找一種聚類或分類算法,以使其與我的預期結果相匹配的方式對我的數據進行聚類。 然后,我將使用聚類預測不同數據集的輸出。

到目前為止,我正在使用K-Means並嘗試使用不同的變量集和不同的規范化方法,以獲得最終結果。 我想找出一個“自動”方法,嘗試不同的組合,直到找到我想要的東西為止。

目前沒有代碼顯示。

在R軟件包ConsensusClusterPlus中,他們使發現簇的過程自動化,從而消除了K均值的隨機性,並測試了多個K值。

當涉及到您的問題時,我建議:

  1. 在data_B上運行共識集群
  2. 對於每個K群集,計算“共識”質心
  3. 對於data_A中的每個樣本,請計算到步驟2到質心的距離,並將每個樣本分配給最接近的質心。
  4. 現在,您可以為data_A和data_B中的所有數據分配標簽/簇,您可以使用隨機森林或XGboost訓練分類器。

您可以查看約束K均值。 這是一個R 和解釋其背后原理的論文 它應該允許您指定k個約束,您可以在其中確定每個群集的限制。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM