簡體   English   中英

數據框中條件數據的箱線圖

[英]Boxplot on conditioned data in a dataframe

我是R的新手,任何人都可以通過boxplot來幫助我處理以下數據集:

文件1

     col1 col2     col3     col4  col5
050350005  101   56.625   48.318 RED    
051010002  106   50.625   46.990 GREEN    
051190007   25   65.875   74.545 BLUE    
051191002  246   52.875   57.070 RED    
220050004   55   70       80.274 BLUE    
220150008   75   67.750   62.749 RED    
220170001   77   65.750   54.307 GREEN

文件2

     col1 col2     col3     col4  col5
050350005  101   56.625   57     RED
051010002  106   50.625   77     GREEN    
051190007   25   65.875   51.6   BLUE    
051191002  246   52.875   55.070 RED    
220050004   55   70       32     BLUE    
220150008   75   67.750   32.49  RED
220170001   77   65.750   84.07  GREEN

對於每種顏色(紅色,綠色和藍色),我需要通過將col2划分為不同的組,通過對col4和RMSE進行箱形圖比較,來比較file1和file2和file1和file2的( col4 - col3col4

如果col2 <20,20 <= col2 <50,50 <= col2 <70,col2> = 70。

也就是說,對於箱線圖,x是(<20,20-50,50-70,> 70),而y是col4col3之差的MB(和RMSE)。

我希望我不要混淆任何人。 非常感謝。

我認為關於箱線圖的用途可能有些困惑。 據我所知,雖然可以在x軸上創建組,但是y軸顯示的是特定度量的分布(在您的情況下,我假設為col3或col4),而不是這些度量的RMSE或MBE,對於每個組,這將是一個單一值。

我不確定您的分組變量(對於x軸)是否為col5,為col2列出的文件或標准,還是全部? 無論如何,您都需要更多數據才能使圖有意義。

這是由col5和文件分組的col3箱形圖的基本示例:

col3 = c(56.625, 50.625, 65.875, 52.875, 70, 67.750, 65.750, 56.625, 50.625, 65.875, 52.875, 70, 67.750, 65.750)
col5 = c("RED", "GREEN", "BLUE", "RED", "BLUE", "RED", "GREEN", "RED", "GREEN", "BLUE","RED","BLUE","RED","GREEN")
myfile = c(1,1,1,1,1,1,1,2,2,2,2,2,2,2)
mydata = data.frame(col3, col5, myfile)
boxplot(col3 ~ col5 + myfile, data = mydata)

請注意,由於案例數量有限,因此您不會在某些類別上看到晶須,也沒有看到異常值。 您需要更多數據才能使此圖有用,現在顯示的只是中位數的比較。

您能否澄清您希望該情節顯示的內容?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM