簡體   English   中英

大型多維數據的無監督聚類

[英]Unsupervised Clustering of large multi-dimentional data

您好,我是機器學習新手。 我需要一些關於高維數據無監督聚類的幫助。 我有超過 15 個維度的數據,大約有 50 - 8 萬行。 數據看起來像這樣(15 個參與者,每個參與者的行數幾乎相等,並且有 15 個特征)-

參與者 時間 功能 1 功能 2...
1個 0.05
1個 0.10
2個 0.05
2個 0.10
2個 0.15

數據由許多參與者組成,每個參與者都有多行數據,並且他們的時間戳記有他們的特征。 我的目標是根據參與者對這些數據進行聚類,並根據這些聚類進行推斷。 這里的問題是每個參與者都有很多行,我無法用一個點代表每個參與者,因此將它們聚類似乎是一項艱巨的任務。

我想幫助:

  1. 將這些數據聚類以便我可以根據參與者進行推斷的最佳方法是什么?

  2. 我應該使用哪種聚類技術? 我已經嘗試過 sklearn 的 Kmeans、meanshift 和其他庫,但它們花費的時間太長,導致我的系統崩潰。

對不起,如果它有點難以理解,我會盡力回答你的問題。 預先感謝您的幫助。 如果這個問題與其他問題非常相似,請告訴我(我找不到)。

謝謝你:)

由於您在必要的計算量方面遇到麻煩,因此您必須在這里做出某種妥協。 這里有一些可能會解決您的問題的建議,但它們都是有代價的。

  1. 降維即 PCA 將您的列數減少到 ~2 左右。 您將丟失一些信息,但您將能夠 plot 它並通過 K-means 進行推理。

  2. 平均患者數據。 不確定這是否足夠,這取決於您的數據。 這將失去對患者的超時觀察,但可能會大大減少行數。

我的建議是進行降維,因為隨着時間的推移丟失患者的數據可能會使您的數據變得無用。 除了 PCA 之外還有其他東西,例如自動編碼器。 為了按照您的描述方式進行聚類,我建議您堅持使用 K-means 或軟 K-means。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM