[英]Calculate Correlation Coefficient Between 2 Variables Grouped by a 3rd Variable
[英]Correlation coefficient between nominal and cardinal scale variables
我必須描述變量“每場比賽完成的平均傳球次數”(基本尺度)和變量“位置”(名義尺度)之間的相關性,並衡量相關性的強度。 為此,我必須考慮到尺度正確選擇相關系數。 有誰知道最好的方法是什么? 我不確定要使用什么,因為它是兩個不同的尺度。 完整數據集包含以下變量:
如果有人能給我一些建議,我將不勝感激。
謝謝!
好的,所以您需要稍微重新定義您的問題。 沒有兩個連續變量,相關性不能用來“描述”一種關系,我猜你在問。 但是,您可以查看不同職位之間的通過率是否存在統計上的顯着差異。 至於統計上的問題,我同意毛蒂斯的看法……簡歷是最好的地方。 至於進行測試的代碼,試試這個:
首先,您需要確保安裝了正確的軟件包。 您肯定需要 ggplot 和 ggfortify,如果您必須操作數據或其他東西,可能還需要其他工具。 並加載庫:
library(ggplot2)
library(ggfortify)
接下來,確保您的數據是整潔的:即列中的變量。
然后將您的數據導入 R:
#find file
data.location = file.choose()
#Import data
curr.data <- read.csv(data.location)
#Check data import
glimpse(curr.data)
然后使用 ggplot 繪圖:
ggplot(curr.data, aes(x = POSITION, y = AVG_PASSES_COMPLETED)) +
geom_boxplot() +
theme_bw()
然后使用線性模型函數 ( lm()
) 進行建模,以查看通過率是否與位置有顯着差異。
passrate_model <- lm(AVG_PASSES_COMPLETED ~ POSITION, data = curr.data)
在檢驗假設之前,您需要檢查模型的適用性
autoplot(passrate_model, smooth.colour = NA)
如果殘差圖看起來不錯,那么我們就可以進行測試了。 如果沒有,那么您將不得不使用另一種類型的模型(我現在不會在這里討論這個......)。
對此(我認為)適當的測試是 Tukey 測試,它需要方差分析。 這將給出一個摘要,並應顯示是否因職位而存在差異:
passrate_av <- aov(passrate_model)
summary(passrate_av)
這將執行 Tukey 檢驗並給出成對比較,包括均值差異、95% 置信區間和調整后的 p 值:
tukey.test <- TukeyHSD(passrate_av)
tukey.test
它甚至可以為您制作一個漂亮的情節:
plot(tukey.test)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.