名義和基數尺度變量之間的相關系數

Question

我必須描述變量“每場比賽完成的平均傳球次數”（基本尺度）和變量“位置”（名義尺度）之間的相關性，並衡量相關性的強度。 為此，我必須考慮到尺度正確選擇相關系數。 有誰知道最好的方法是什么？ 我不確定要使用什么，因為它是兩個不同的尺度。 完整數據集包含以下變量：

如果有人能給我一些建議，我將不勝感激。

謝謝！

Answer 1

好的，所以您需要稍微重新定義您的問題。 沒有兩個連續變量，相關性不能用來“描述”一種關系，我猜你在問。 但是，您可以查看不同職位之間的通過率是否存在統計上的顯着差異。 至於統計上的問題，我同意毛蒂斯的看法……簡歷是最好的地方。 至於進行測試的代碼，試試這個：

首先，您需要確保安裝了正確的軟件包。 您肯定需要 ggplot 和 ggfortify，如果您必須操作數據或其他東西，可能還需要其他工具。 並加載庫：

library(ggplot2)
library(ggfortify)

接下來，確保您的數據是整潔的：即列中的變量。

然后將您的數據導入 R：

#find file
data.location = file.choose()
#Import data
curr.data <- read.csv(data.location)
#Check data import
glimpse(curr.data)

然后使用 ggplot 繪圖：

ggplot(curr.data, aes(x = POSITION, y = AVG_PASSES_COMPLETED)) +
  geom_boxplot() +
  theme_bw()

然后使用線性模型函數 ( lm() ) 進行建模，以查看通過率是否與位置有顯着差異。

passrate_model <- lm(AVG_PASSES_COMPLETED ~ POSITION, data = curr.data)

在檢驗假設之前，您需要檢查模型的適用性

autoplot(passrate_model, smooth.colour = NA)

如果殘差圖看起來不錯，那么我們就可以進行測試了。 如果沒有，那么您將不得不使用另一種類型的模型（我現在不會在這里討論這個......）。

對此（我認為）適當的測試是 Tukey 測試，它需要方差分析。 這將給出一個摘要，並應顯示是否因職位而存在差異：

passrate_av <- aov(passrate_model)
summary(passrate_av)

這將執行 Tukey 檢驗並給出成對比較，包括均值差異、95% 置信區間和調整后的 p 值：

tukey.test <- TukeyHSD(passrate_av)
tukey.test

它甚至可以為您制作一個漂亮的情節：

plot(tukey.test)