[英]Boxplot on conditioned data in a dataframe
我是R的新手,任何人都可以通過boxplot來幫助我處理以下數據集:
文件1
col1 col2 col3 col4 col5
050350005 101 56.625 48.318 RED
051010002 106 50.625 46.990 GREEN
051190007 25 65.875 74.545 BLUE
051191002 246 52.875 57.070 RED
220050004 55 70 80.274 BLUE
220150008 75 67.750 62.749 RED
220170001 77 65.750 54.307 GREEN
文件2
col1 col2 col3 col4 col5
050350005 101 56.625 57 RED
051010002 106 50.625 77 GREEN
051190007 25 65.875 51.6 BLUE
051191002 246 52.875 55.070 RED
220050004 55 70 32 BLUE
220150008 75 67.750 32.49 RED
220170001 77 65.750 84.07 GREEN
對於每種顏色(紅色,綠色和藍色),我需要通過將col2
划分為不同的組,通過對col4
和RMSE進行箱形圖比較,來比較file1和file2和file1和file2的( col4
- col3
) col4
:
如果col2 <20,20 <= col2 <50,50 <= col2 <70,col2> = 70。
也就是說,對於箱線圖,x是(<20,20-50,50-70,> 70),而y是col4
和col3
之差的MB(和RMSE)。
我希望我不要混淆任何人。 非常感謝。
我認為關於箱線圖的用途可能有些困惑。 據我所知,雖然可以在x軸上創建組,但是y軸顯示的是特定度量的分布(在您的情況下,我假設為col3或col4),而不是這些度量的RMSE或MBE,對於每個組,這將是一個單一值。
我不確定您的分組變量(對於x軸)是否為col5,為col2列出的文件或標准,還是全部? 無論如何,您都需要更多數據才能使圖有意義。
這是由col5和文件分組的col3箱形圖的基本示例:
col3 = c(56.625, 50.625, 65.875, 52.875, 70, 67.750, 65.750, 56.625, 50.625, 65.875, 52.875, 70, 67.750, 65.750)
col5 = c("RED", "GREEN", "BLUE", "RED", "BLUE", "RED", "GREEN", "RED", "GREEN", "BLUE","RED","BLUE","RED","GREEN")
myfile = c(1,1,1,1,1,1,1,2,2,2,2,2,2,2)
mydata = data.frame(col3, col5, myfile)
boxplot(col3 ~ col5 + myfile, data = mydata)
請注意,由於案例數量有限,因此您不會在某些類別上看到晶須,也沒有看到異常值。 您需要更多數據才能使此圖有用,現在顯示的只是中位數的比較。
您能否澄清您希望該情節顯示的內容?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.