在R中繪制一百萬點？

Question

我有一個文本文件（制表符分隔），它具有3列A，B，C：

       A                          B                           C
0.07142857142857142      0.35714285714285715    0.21428571428571427
0.0                      0.3333333333333333     0.3888888888888889
0.07142857142857142      0.35714285714285715    0.21428571428571427
0.0                      0.3333333333333333         0.3888888888888889

每行代表一個具有3個不同百分比的A，B和C的樣本。總共我有4個文件，分別針對4種不同的生物。 每個文件可以有超過一百萬行。

我的想法是繪制每行以查看給定文件中的點對（A，B，C）的分布，然后確定給定文件中最頻繁的點對是什么，然后比較這四個文件。

我嘗試為每個文件在R中繪制這些點（同一圖中的多個曲線：y軸中的A，B，C，x軸中的樣本數），但是有太多的點，基本上該圖可以不能被解釋。 同樣對於百萬行文件，R崩潰並且不會繪制點。

代表這些觀點的最佳方法是什么？ 模式功能是否足以確定最頻繁的貨幣對（A，B，C），或者我可以嘗試進行任何適當的統計檢驗嗎？

任何幫助將非常感激。

謝謝。

Answer 1

正如我在評論中提到的那樣，群集可能是解決您的問題的方法。 這是使用kmeans進行聚類的一種方法：

irisCl <- transform(iris, Cluster = kmeans(iris[1:4],3)$cluster)
library(ggplot2)
qplot(Sepal.Length, Sepal.Width, data=irisCl, colour=Species) + facet_grid(~Cluster)

kmeans

請注意，我們已經聚集在4維變量空間中。 如您所見，在第一個群集中正確識別了剛毛，第二個群集僅包含弗吉尼亞州，但是第三個群集包含雜色和弗吉尼亞州的混合物。

在R中繪制一百萬點？

問題描述

1 個解決方案

解決方案1
0 已采納 2014-03-25 13:06:52

在R中繪制一百萬點？

問題描述

1 個解決方案

解決方案1 0 已采納 2014-03-25 13:06:52

解決方案1
0 已采納 2014-03-25 13:06:52