簡體   English   中英

名義和基數尺度變量之間的相關系數

[英]Correlation coefficient between nominal and cardinal scale variables

我必須描述變量“每場比賽完成的平均傳球次數”(基本尺度)和變量“位置”(名義尺度)之間的相關性,並衡量相關性的強度。 為此,我必須考慮到尺度正確選擇相關系數。 有誰知道最好的方法是什么? 我不確定要使用什么,因為它是兩個不同的尺度。 完整數據集包含以下變量:

  • PLAYER:玩家的名字
  • 國家:原產國
  • 生日:生日日期
  • HEIGHT_IN_CM:玩家身高
  • POSITION:玩家的位置
  • PASSES_COMPLETED:球員完成的傳球
  • DISTANCE_COVERED:玩家走過的距離(km)
  • MINUTES_PLAYED:播放的分鍾數
  • AVG_PASSES_COMPLETED:球員完成的平均傳球次數

如果有人能給我一些建議,我將不勝感激。

謝謝!

好的,所以您需要稍微重新定義您的問題。 沒有兩個連續變量,相關性不能用來“描述”一種關系,我猜你在問。 但是,您可以查看不同職位之間的通過率是否存在統計上的顯着差異。 至於統計上的問題,我同意毛蒂斯的看法……簡歷是最好的地方。 至於進行測試的代碼,試試這個:

首先,您需要確保安裝了正確的軟件包。 您肯定需要 ggplot 和 ggfortify,如果您必須操作數據或其他東西,可能還需要其他工具。 並加載庫:

library(ggplot2)
library(ggfortify)

接下來,確保您的數據是整潔的:即列中的變量。

然后將您的數據導入 R:

#find file
data.location = file.choose()
#Import data
curr.data <- read.csv(data.location)
#Check data import
glimpse(curr.data)

然后使用 ggplot 繪圖:

ggplot(curr.data, aes(x = POSITION, y = AVG_PASSES_COMPLETED)) +
  geom_boxplot() +
  theme_bw()

然后使用線性模型函數 ( lm() ) 進行建模,以查看通過率是否與位置有顯着差異。

passrate_model <- lm(AVG_PASSES_COMPLETED ~ POSITION, data = curr.data)

在檢驗假設之前,您需要檢查模型的適用性

autoplot(passrate_model, smooth.colour = NA)

如果殘差圖看起來不錯,那么我們就可以進行測試了。 如果沒有,那么您將不得不使用另一種類型的模型(我現在不會在這里討論這個......)。

對此(我認為)適當的測試是 Tukey 測試,它需要方差分析。 這將給出一個摘要,並應顯示是否因職位而存在差異:

passrate_av <- aov(passrate_model)
summary(passrate_av)

這將執行 Tukey 檢驗並給出成對比較,包括均值差異、95% 置信區間和調整后的 p 值:

tukey.test <- TukeyHSD(passrate_av)
tukey.test

它甚至可以為您制作一個漂亮的情節:

plot(tukey.test)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM