[英]Substitute for numpy broadcasting using scipy.sparse.csc_matrix
[英]scipy.sparse.csc_matrix format for mlpy
我想知道是否有辦法在python
為mlpy
設置scipy.sparse.csc_matrix
格式。 我以前與mlpy合作過,並且一直處理非稀疏矩陣。 例如,如果我每行有5個功能和1個標簽(0或1),則將具有以下內容:
2,3,4,5,6,0
1,2,3,4,5,1
.....
現在,對於我的下一個項目,我擁有大約20,000個功能,因此在這種情況下創建稀疏矩陣會容易得多。
我看了關於k均值聚類的mlpy文檔(因為我現在要做的就是聚類數據),它說 :
Parameters :
x : 2d array_like object (N, P)
data
k : int (1<k<N)
number of clusters
plus : bool
k-means++ algorithm for initialization
seed : int
random seed for initialization
Returns :
clusters, means, steps: 1d array, 2d array, int
cluster membership in 0,...,K-1, means (K,P), number of steps
我認為這意味着mlpy僅接受非稀疏矩陣。 如果我讀錯了什么,請告訴我。
任何幫助將不勝感激。 謝謝!
我認為答案很簡單,即MLPy中的kmeans不適用於稀疏輸入。 編寫算法以處理稀疏輸入並非易事。
scikit-learn的MiniBatchKMeans適用於稀疏輸入(免責聲明:我是scikit-learn開發人員)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.