簡體   English   中英

R ggplot2直方圖bin分配

[英]R ggplot2 histogram bin allocation

我的問題是,當我使用某些bin寬度大於數據分辨率的ggplot2構造直方圖時,bin有時包含來自基礎數據的不均勻數量的增量。 這會導致直方圖中出現較大的峰,這給數據的峰度造成了五個錯誤的印象。 有內置的方法可以防止這種情況嗎? 也許分配垃圾箱之間的增量?

require(ggplot2)
require(ggplot2movies)
m <- ggplot(movies, aes(x = rating))
#Original resolution
plot(m + geom_histogram(binwidth = 0.1) + scale_y_sqrt())
#Downsampled
plot(m + geom_histogram(binwidth = 0.25) + scale_y_sqrt())

原始分辨率

間苗

我不知道,是否有內置方法,geom_histogram()的默認值為30個bins,您可以覆蓋它。 一種可能的解決方法是,如果您計算不同x值的數量並將其用於垃圾箱的數量(或其中的一部分):

plot(m + geom_histogram(bins = nlevels(as.factor(movies$rating))))

在此處輸入圖片說明

現在的解決方法是簡單地根據數據分辨率(而不是bin的數量)修改binwidth。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM