R中的並行k均值

Question

我試圖了解如何使用R並行化我的一些代碼。因此，在下面的示例中，我想使用k-means使用2,3,4,5,6中心對數據進行聚類，同時使用20次迭代。 這是代碼：

library(parallel)
library(BLR)

data(wheat)

parallel.function <- function(i) {
    kmeans( X[1:100,100], centers=?? , nstart=i )
}

out <- mclapply( c(5, 5, 5, 5), FUN=parallel.function )

我們如何同時並行迭代和中心？ 如何跟蹤輸出，假設我想在所有，迭代和中心保持k-means的所有輸出，只是為了學習如何？

Answer 1

起初這看起來很簡單......然后我試了一下。 在我午休期間經過大量的猴子打字和臉部手掌之后，我到達了這里：

library(parallel)
library(BLR)

data(wheat)

mc = mclapply(2:6, function(x,centers)kmeans(x, centers), x=X)

雖然我沒有檢查聚類是多么明智，但它看起來是正確的。

> summary(mc)
     Length Class  Mode
[1,] 9      kmeans list
[2,] 9      kmeans list
[3,] 9      kmeans list
[4,] 9      kmeans list
[5,] 9      kmeans list

在反思中，命令語法似乎是明智的 - 雖然許多其他失敗的東西似乎也是合理的......幫助文檔中的示例可能不是那么好。

希望能幫助到你。

編輯如這里要求的是兩個變量nstart和centers

(pars = expand.grid(i=1:3, cent=2:4))

  i cent
1 1    2
2 2    2
3 3    2
4 1    3
5 2    3
6 3    3
7 1    4
8 2    4
9 3    4

L=list()
# zikes horrible
pars2=apply(pars,1,append, L)
mc = mclapply(pars2, function(x,pars)kmeans(x, centers=pars$cent,nstart=pars$i ), x=X)

> summary(mc)
      Length Class  Mode
 [1,] 9      kmeans list
 [2,] 9      kmeans list
 [3,] 9      kmeans list
 [4,] 9      kmeans list
 [5,] 9      kmeans list
 [6,] 9      kmeans list
 [7,] 9      kmeans list
 [8,] 9      kmeans list
 [9,] 9      means list

你覺得他們蘋果怎么樣？

Answer 2

您可以使用parallel來嘗試來自多個核心上不同隨機起點的K-Means。

下面的代碼就是一個例子。 （K = K表示K均值，N =隨機起始點數，C =您想要使用的核心數）

suppressMessages( library("Matrix") )
suppressMessages( library("irlba") )
suppressMessages( library("stats") )
suppressMessages( library("cluster") )
suppressMessages( library("fpc") )
suppressMessages( library("parallel") )

#Calculate KMeans results
calcKMeans <- function(matrix, K, N, C){
  #Parallel running from various of random starting points (Using C cores)
  results <- mclapply(rep(N %/% C, C), FUN=function(nstart) kmeans(matrix, K, iter.max=15, nstart=nstart), mc.cores=C);
  #Find the solution with smallest total within sum of square error
  tmp <- sapply(results, function(r){r[['tot.withinss']]})
  km <- results[[which.min(tmp)]]  
  #return cluster, centers, totss, withinss, tot.withinss, betweenss, size
  return(km)
}

runKMeans <- function(fin_uf, K, N, C, 
                      #fout_center, fout_label, fout_size, 
                      fin_record=NULL, fout_prediction=NULL){
  uf = read.table(fin_uf)
  km = calcKMeans(uf, K, N, C)
  rm(uf)
  #write.table(km$cluster, file=fout_label, row.names=FALSE, col.names=FALSE)
  #write.table(km$center, file=fout_center, row.names=FALSE, col.names=FALSE)
  #write.table(km$size, file=fout_size, row.names=FALSE, col.names=FALSE)
  str(km)

  return(km$center)
}

希望能幫助到你！

Answer 3

有一個名為knor的CRAN軟件包源自一篇研究論文，該文章使用Elkan修剪算法的內存有效變體來提高性能。 它比這些答案中的所有內容都要快一個數量級。

install.packages("knor")
require(knor)
iris.mat <- as.matrix(iris[,1:4])
k <- length(unique(iris[, dim(iris)[2]])) # Number of unique classes
nthread <- 4
kms <- Kmeans(iris.mat, k, nthread=nthread)

R中的並行k均值

問題描述

3 個解決方案

解決方案1
5 已采納 2013-12-06 13:59:39

解決方案2
1 2014-05-22 21:41:42

解決方案3
1 2018-05-02 21:27:04

R中的並行k均值

問題描述

3 個解決方案

解決方案1 5 已采納 2013-12-06 13:59:39

解決方案2 1 2014-05-22 21:41:42

解決方案3 1 2018-05-02 21:27:04

解決方案1
5 已采納 2013-12-06 13:59:39

解決方案2
1 2014-05-22 21:41:42

解決方案3
1 2018-05-02 21:27:04