簡體   English   中英

在R中繪制一百萬點?

[英]Plotting a million points in R?

我有一個文本文件(制表符分隔),它具有3列A,B,C:

       A                          B                           C
0.07142857142857142      0.35714285714285715    0.21428571428571427
0.0                      0.3333333333333333     0.3888888888888889
0.07142857142857142      0.35714285714285715    0.21428571428571427
0.0                      0.3333333333333333         0.3888888888888889

每行代表一個具有3個不同百分比的A,B和C的樣本。總共我有4個文件,分別針對4種不同的生物。 每個文件可以有超過一百萬行。

我的想法是繪制每行以查看給定文件中的點對(A,B,C)的分布,然后確定給定文件中最頻繁的點對是什么,然后比較這四個文件。

我嘗試為每個文件在R中繪制這些點(同一圖中的多個曲線:y軸中的A,B,C,x軸中的樣本數),但是有太多的點,基本上該圖可以不能被解釋。 同樣對於百萬行文件,R崩潰並且不會繪制點。

代表這些觀點的最佳方法是什么? 模式功能是否足以確定最頻繁的貨幣對(A,B,C),或者我可以嘗試進行任何適當的統計檢驗嗎?

任何幫助將非常感激。

謝謝。

正如我在評論中提到的那樣, 群集可能是解決您的問題的方法。 這是使用kmeans進行聚類的一種方法:

irisCl <- transform(iris, Cluster = kmeans(iris[1:4],3)$cluster)
library(ggplot2)
qplot(Sepal.Length, Sepal.Width, data=irisCl, colour=Species) + facet_grid(~Cluster)

kmeans

請注意,我們已經聚集在4維變量空間中。 如您所見,在第一個群集中正確識別了剛毛,第二個群集僅包含弗吉尼亞州,但是第三個群集包含雜色和弗吉尼亞州的混合物。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM