簡體 English 中英

大型多維數據的無監督聚類

[英]Unsupervised Clustering of large multi-dimentional data

原文 2021-08-19 11:55:06 3 1 python/ machine-learning/ cluster-analysis/ unsupervised-learning/ feature-clustering

您好，我是機器學習新手。 我需要一些關於高維數據無監督聚類的幫助。 我有超過 15 個維度的數據，大約有 50 - 8 萬行。 數據看起來像這樣（15 個參與者，每個參與者的行數幾乎相等，並且有 15 個特征）-

參與者	時間	功能 1	功能 2...
1個	0.05	值	值
1個	0.10	值	值
2個	0.05	值	值
2個	0.10	值	值
2個	0.15	值	值

數據由許多參與者組成，每個參與者都有多行數據，並且他們的時間戳記有他們的特征。 我的目標是根據參與者對這些數據進行聚類，並根據這些聚類進行推斷。 這里的問題是每個參與者都有很多行，我無法用一個點代表每個參與者，因此將它們聚類似乎是一項艱巨的任務。

我想幫助：

將這些數據聚類以便我可以根據參與者進行推斷的最佳方法是什么？
我應該使用哪種聚類技術？ 我已經嘗試過 sklearn 的 Kmeans、meanshift 和其他庫，但它們花費的時間太長，導致我的系統崩潰。

對不起，如果它有點難以理解，我會盡力回答你的問題。 預先感謝您的幫助。 如果這個問題與其他問題非常相似，請告訴我（我找不到）。

謝謝你：）

1 個解決方案

由於您在必要的計算量方面遇到麻煩，因此您必須在這里做出某種妥協。 這里有一些可能會解決您的問題的建議，但它們都是有代價的。

降維即 PCA 將您的列數減少到 ~2 左右。 您將丟失一些信息，但您將能夠 plot 它並通過 K-means 進行推理。
平均患者數據。 不確定這是否足夠，這取決於您的數據。 這將失去對患者的超時觀察，但可能會大大減少行數。

我的建議是進行降維，因為隨着時間的推移丟失患者的數據可能會使您的數據變得無用。 除了 PCA 之外還有其他東西，例如自動編碼器。 為了按照您的描述方式進行聚類，我建議您堅持使用 K-means 或軟 K-means。

迭代多維數組

[英]Iterating over a multi-dimentional array

python列表能否將多維數組作為其元素？

[英]Can a python list hold a multi-dimentional array as its element?

需要更好的方法來排序和合並多維數組

[英]Need better way to sort&merge multi-dimentional array

如何在子數據幀上過濾多維數據幀

[英]how to filter multi-dimentional dataframe on sub dataframe

如何在多維數組上訓練LSTM模型？

[英]How to train an LSTM model on multi-dimentional array?

如何在Python中返回兩個多維列表的差異？

[英]How to return the difference of two multi-dimentional lists in Python?

將粒子群優化算法應用於多維搜索空間？

[英]applying the Particle swarm optimization algorithm into multi-dimentional searching space?

如何從多維數組中刪除項目？

[英]How to remove an item from a multi-dimentional array?

在記住索引的同時遍歷多維列表

[英]Iterating through multi-dimentional lists while remembering indices

需要在數組python3的多維列表中獲取整個第一個元素（數組）

[英]need to grab entire first element (array) in a multi-dimentional list of arrays python3

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 迭代多維數組 python列表能否將多維數組作為其元素？需要更好的方法來排序和合並多維數組如何在子數據幀上過濾多維數據幀如何在多維數組上訓練LSTM模型？如何在Python中返回兩個多維列表的差異？將粒子群優化算法應用於多維搜索空間？如何從多維數組中刪除項目？在記住索引的同時遍歷多維列表需要在數組python3的多維列表中獲取整個第一個元素（數組）

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM