繁体   English   中英

聚类中的不确定性

[英]Uncertainty in Clustering

我正在将层次聚类应用于我的数据集,其中包括 30 项研究。 我的数据集的一个例子是:

   X0 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14
1  2  2  7  7  0  0  0  0  0  0  0   0   0   0   0
2  0  5  37 27 5  1  2  2  2  2  1   1   1   0   0
                      :
                      :
30 0  0  3  1  2  5  7  0  0  0  0   0   0   0   0

我使用以下代码应用 kolmogorov-sminrov 测试的引导抽样版本来计算距离矩阵d并应用“完整链接”算法。

p <- outer(1:30, 1:30, Vectorize(function(i,j)
  {ks.boot(as.numeric(rep(seq(0,14,1),as.vector(test[i,]))),
           as.numeric(rep(seq(0,14,1),as.vector(test[j,]))),nboots=10000)
              $ks.boot.pvalue}))
d <- as.dist(as.matrix(1-p))

hc1 <- hclust(d,method = "complete")
plot(hc1)

这在每项研究之间抽取了 10,000 (KS) 个 p 值。 所以对于 s1 & s2, s1 & s3 .... s1 & s30, s2 & s3 .... s 29 & s30 并将概率存储到 30 x 30 矩阵中。

如果我通过简单地重新运行代码来重复这个过程并将 p 值存储在另一个变量中并绘制一个树状图,那么我将获得一个稍微不同的树状图,其中一些研究改变了位置。 我附上了几个例子

有些差异在视觉上非常微妙,但高度略有变化,大簇的位置也发生了变化。 我对两种类型的不确定性感兴趣:由于自举采样引起的不确定性,这是树状图试图显示的内容。

第二个是样本量带来的不确定性,即研究中的样本量如何影响聚类顺序。 我想以某种方式将其形象化,我唯一的猜测是删除一项研究并将新的树状图与原始树状图进行比较,然后手动找出差异,这将花费大量时间。

我还检查了pvclust包的层次聚类,但我认为它在我使用 KS bootstrapping 时不适用。

D1

D2

D3

有很多方法可以进行这种分析。 您正在根据引导数据计算单个距离矩阵。 相反,您应该生成具有引导分支支持的引导 这将使您了解聚类的稳健性。

这是一个使用 Iris 数据集和这个 R 包的例子: https : //github.com/sgibb/bootstrap

library(bootstrap)
library(dplyr)

set.seed(1)
data(iris)
rownames(iris) <- paste0(iris$Species, ".", 1:nrow(iris))
iris <- iris %>% sample_n(25) %>% dplyr::select(-Species) %>% data.matrix

createHclustObject <- function(x)hclust(dist(x), "ave")
b <- bootstrap(iris, fun=createHclustObject, n=1000L)

hc <- createHclustObject(iris)
plot(hc)
bootlabels.hclust(hc, b, col="blue")

在此处输入图片说明

也可以看看:

http://www.pnas.org/content/93/23/13429 (原文?)PNAS 论文描述了系统发育树的引导分支支持

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM