[英]Good Ways to Visualize Longitudinal Categorical Data in R
[更新:雖然我已經接受了一個答案,但如果您有其他可視化想法(無論是 R 還是其他語言/程序),請添加另一個答案。 關於分類數據分析的文本似乎並沒有過多地講述可視化縱向數據,而有關縱向數據分析的文本似乎並沒有過多地講述可視化對象內類別成員隨時間的變化。 對這個問題有更多答案將使它成為解決標准參考文獻中沒有太多報道的問題的更好資源。]
一位同事剛剛給了我一個縱向分類數據集供我查看,我正試圖弄清楚如何在可視化中捕捉縱向方面。 我在這里發帖,因為我想在 R 中執行此操作,但請讓我知道交叉發布到交叉驗證是否有意義,因為通常不鼓勵交叉發布。
快速背景:數據跟蹤了通過學術咨詢計划的學生每學期的學術地位。 數據為長格式,有五個變量:“id”、“cohort”、“term”、“standing”和“termGPA”。 前兩個標識學生和他們在建議計划中的學期。 最后三個是記錄學生學業成績和GPA時的條款。 我使用dput
在下面粘貼了一些示例數據。
我創建了一個馬賽克圖(見下文),將學生按隊列、排名和學期分組。 這顯示了每個學期每個學術地位類別的學生比例。 但這並沒有捕捉到縱向方面——隨着時間的推移跟蹤個別學生的事實。 我想跟蹤具有給定學術地位的學生群體隨時間推移的路徑。
例如:在 2009 年秋季(“F09”)獲得“AP”(留校察看)資格的學生中,有多少人在未來仍然是 AP,有多少人進入其他類別(例如,GS,“良好的信譽”)? 自進入咨詢計划以來,不同類別之間隨時間的移動是否存在差異?
我不太明白如何在 R 圖形中捕捉這個縱向方面。 vcd
包具有可視化分類數據的功能,但似乎沒有處理縱向分類數據。 是否有可視化縱向分類數據的“標准”方法? R是否有為此設計的包? 長格式是否適合這種類型的數據,還是使用寬格式會更好?
對於解決這個特定問題的建議以及文章、書籍等的建議,我將不勝感激,以了解更多關於可視化縱向分類數據的信息。
這是我用來制作馬賽克圖的代碼。 該代碼將下面列出的數據與dput
一起使用。
library(RColorBrewer)
# create a table object for plotting
df1.tab = table(df1$cohort, df1$term, df1$standing,
dnn=c("Cohort\nAcademic Standing", "Term", "Standing"))
# create a mosaic plot
plot(df1.tab, las=1, dir=c("h","v","h"),
col=brewer.pal(8,"Dark2"),
main="Fall 2009 and Fall 2010 Cohorts")
這是馬賽克圖(附帶問題:是否有任何方法可以使 F10 群組的列直接位於 F09 群組的列下方並具有與 F09 群組的列相同的寬度,即使 F10 群組中的某些術語沒有數據?) :
這是用於創建表格和圖表的數據:
df1 =
structure(list(id = c(101L, 102L, 103L, 104L, 105L, 106L, 107L,
108L, 109L, 110L, 111L, 112L, 113L, 114L, 115L, 116L, 117L, 118L,
119L, 120L, 121L, 122L, 123L, 124L, 125L, 101L, 102L, 103L, 104L,
105L, 106L, 107L, 108L, 109L, 110L, 111L, 112L, 113L, 114L, 115L,
116L, 117L, 118L, 119L, 120L, 121L, 122L, 123L, 124L, 125L, 101L,
102L, 103L, 104L, 105L, 106L, 107L, 108L, 109L, 110L, 111L, 112L,
113L, 114L, 115L, 116L, 117L, 118L, 119L, 120L, 121L, 122L, 123L,
124L, 125L, 101L, 102L, 103L, 104L, 105L, 106L, 107L, 108L, 109L,
110L, 111L, 112L, 113L, 114L, 115L, 116L, 117L, 118L, 119L, 120L,
121L, 122L, 123L, 124L, 125L, 101L, 102L, 103L, 104L, 105L, 106L,
107L, 108L, 109L, 110L, 111L, 112L, 113L, 114L, 115L, 116L, 117L,
118L, 119L, 120L, 121L, 122L, 123L, 124L, 125L, 101L, 102L, 103L,
104L, 105L, 106L, 107L, 108L, 109L, 110L, 111L, 112L, 113L, 114L,
115L, 116L, 117L, 118L, 119L, 120L, 121L, 122L, 123L, 124L, 125L,
101L, 102L, 103L, 104L, 105L, 106L, 107L, 108L, 109L, 110L, 111L,
112L, 113L, 114L, 115L, 116L, 117L, 118L, 119L, 120L, 121L, 122L,
123L, 124L, 125L), cohort = structure(c(1L, 1L, 1L, 1L, 2L, 1L,
1L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 1L, 1L,
1L, 1L, 2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 2L, 2L, 2L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 2L, 2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 1L,
2L, 1L, 1L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L,
1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 2L, 2L, 2L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L,
1L, 1L, 2L, 1L, 1L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
2L, 2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 2L,
2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 1L, 1L, 1L, 1L, 2L,
1L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 2L, 2L, 1L, 1L, 1L, 1L, 2L), .Label = c("F09", "F10"), class = c("ordered",
"factor")), term = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 5L, 5L, 5L, 5L,
5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L,
5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L,
6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L,
7L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 7L,
7L, 7L, 7L, 7L, 7L, 7L, 7L), .Label = c("S09", "F09", "S10",
"F10", "S11", "F11", "S12"), class = c("ordered", "factor")),
standing = structure(c(2L, 4L, 1L, 4L, NA, 4L, 1L, NA, NA,
NA, NA, 2L, 2L, 1L, 4L, 4L, 1L, 3L, NA, NA, 4L, 3L, 1L, 4L,
NA, 2L, 1L, 3L, 3L, NA, 1L, 2L, NA, NA, NA, NA, 2L, 4L, 3L,
4L, 4L, 4L, 2L, NA, NA, 4L, 2L, 4L, 4L, NA, 3L, 4L, 6L, 6L,
1L, 4L, 4L, 1L, 1L, 1L, 1L, 1L, 4L, 6L, 4L, 4L, 1L, 4L, 1L,
2L, 4L, 3L, 1L, 4L, 1L, 6L, 1L, 6L, 6L, 7L, 4L, 4L, 2L, 2L,
4L, 2L, 6L, 4L, 6L, 7L, 4L, 2L, 4L, 1L, 2L, 4L, 6L, 6L, 4L,
2L, 2L, 3L, 6L, 6L, 7L, 4L, 4L, 3L, 4L, 4L, 6L, 2L, 1L, 6L,
6L, 4L, 2L, 1L, 7L, 2L, 4L, 6L, 6L, 4L, 4L, 3L, 6L, 4L, 6L,
2L, 4L, 4L, 6L, 4L, 4L, 6L, 3L, 2L, 6L, 6L, 4L, 2L, 6L, 3L,
4L, 4L, 6L, 6L, 4L, 4L, 5L, 6L, 4L, 6L, 4L, 4L, 4L, 5L, 4L,
4L, 6L, 6L, 2L, 6L, 6L, 4L, 3L, 6L, 6L, 4L, 4L, 6L, 6L, 4L,
4L), .Label = c("AP", "CP", "DQ", "GS", "DM", "NE", "WD"), class = "factor"),
termGPA = c(1.433, 1.925, 1, 1.68, NA, 1.579, 1.233, NA,
NA, NA, NA, 2.009, 1.675, 0, 1.5, 1.86, 0.5, 0.94, NA, NA,
1.777, 1.1, 1.133, 1.675, NA, 2, 1.25, 1.66, 0, NA, 1.525,
2.25, NA, NA, NA, NA, 1.66, 2.325, 0, 2.308, 1.6, 1.825,
2.33, NA, NA, 2.65, 2.65, 2.85, 3.233, NA, 1.25, 1.575, NA,
NA, 1, 2.385, 3.133, 0, 0, 1.729, 1.075, 0, 4, NA, 2.74,
0, 1.369, 2.53, 0, 2.65, 2.75, 0, 0.333, 3.367, 1, NA, 0.1,
NA, NA, 1, 2.2, 2.18, 2.31, 1.75, 3.073, 0.7, NA, 1.425,
NA, 2.74, 2.9, 0.692, 2, 0.75, 1.675, 2.4, NA, NA, 3.829,
2.33, 2.3, 1.5, NA, NA, NA, 2.69, 1.52, 0.838, 2.35, 1.55,
NA, 1.35, 0.66, NA, NA, 1.35, 1.9, 1.04, NA, 1.464, 2.94,
NA, NA, 3.72, 2.867, 1.467, NA, 3.133, NA, 1, 2.458, 1.214,
NA, 3.325, 2.315, NA, 1, 2.233, NA, NA, 2.567, 1, NA, 0,
3.325, 2.077, NA, NA, 3.85, 2.718, 1.385, NA, 2.333, NA,
2.675, 1.267, 1.6, 1.388, 3.433, 0.838, NA, NA, 0, NA, NA,
2.6, 0, NA, NA, 1, 2.825, NA, NA, 3.838, 2.883)), .Names = c("id",
"cohort", "term", "standing", "termGPA"), row.names = c("101.F09.s09",
"102.F09.s09", "103.F09.s09", "104.F09.s09", "105.F10.s09", "106.F09.s09",
"107.F09.s09", "108.F10.s09", "109.F10.s09", "110.F10.s09", "111.F10.s09",
"112.F09.s09", "113.F09.s09", "114.F09.s09", "115.F09.s09", "116.F09.s09",
"117.F09.s09", "118.F09.s09", "119.F10.s09", "120.F10.s09", "121.F09.s09",
"122.F09.s09", "123.F09.s09", "124.F09.s09", "125.F10.s09", "101.F09.f09",
"102.F09.f09", "103.F09.f09", "104.F09.f09", "105.F10.f09", "106.F09.f09",
"107.F09.f09", "108.F10.f09", "109.F10.f09", "110.F10.f09", "111.F10.f09",
"112.F09.f09", "113.F09.f09", "114.F09.f09", "115.F09.f09", "116.F09.f09",
"117.F09.f09", "118.F09.f09", "119.F10.f09", "120.F10.f09", "121.F09.f09",
"122.F09.f09", "123.F09.f09", "124.F09.f09", "125.F10.f09", "101.F09.s10",
"102.F09.s10", "103.F09.s10", "104.F09.s10", "105.F10.s10", "106.F09.s10",
"107.F09.s10", "108.F10.s10", "109.F10.s10", "110.F10.s10", "111.F10.s10",
"112.F09.s10", "113.F09.s10", "114.F09.s10", "115.F09.s10", "116.F09.s10",
"117.F09.s10", "118.F09.s10", "119.F10.s10", "120.F10.s10", "121.F09.s10",
"122.F09.s10", "123.F09.s10", "124.F09.s10", "125.F10.s10", "101.F09.f10",
"102.F09.f10", "103.F09.f10", "104.F09.f10", "105.F10.f10", "106.F09.f10",
"107.F09.f10", "108.F10.f10", "109.F10.f10", "110.F10.f10", "111.F10.f10",
"112.F09.f10", "113.F09.f10", "114.F09.f10", "115.F09.f10", "116.F09.f10",
"117.F09.f10", "118.F09.f10", "119.F10.f10", "120.F10.f10", "121.F09.f10",
"122.F09.f10", "123.F09.f10", "124.F09.f10", "125.F10.f10", "101.F09.s11",
"102.F09.s11", "103.F09.s11", "104.F09.s11", "105.F10.s11", "106.F09.s11",
"107.F09.s11", "108.F10.s11", "109.F10.s11", "110.F10.s11", "111.F10.s11",
"112.F09.s11", "113.F09.s11", "114.F09.s11", "115.F09.s11", "116.F09.s11",
"117.F09.s11", "118.F09.s11", "119.F10.s11", "120.F10.s11", "121.F09.s11",
"122.F09.s11", "123.F09.s11", "124.F09.s11", "125.F10.s11", "101.F09.f11",
"102.F09.f11", "103.F09.f11", "104.F09.f11", "105.F10.f11", "106.F09.f11",
"107.F09.f11", "108.F10.f11", "109.F10.f11", "110.F10.f11", "111.F10.f11",
"112.F09.f11", "113.F09.f11", "114.F09.f11", "115.F09.f11", "116.F09.f11",
"117.F09.f11", "118.F09.f11", "119.F10.f11", "120.F10.f11", "121.F09.f11",
"122.F09.f11", "123.F09.f11", "124.F09.f11", "125.F10.f11", "101.F09.s12",
"102.F09.s12", "103.F09.s12", "104.F09.s12", "105.F10.s12", "106.F09.s12",
"107.F09.s12", "108.F10.s12", "109.F10.s12", "110.F10.s12", "111.F10.s12",
"112.F09.s12", "113.F09.s12", "114.F09.s12", "115.F09.s12", "116.F09.s12",
"117.F09.s12", "118.F09.s12", "119.F10.s12", "120.F10.s12", "121.F09.s12",
"122.F09.s12", "123.F09.s12", "124.F09.s12", "125.F10.s12"), reshapeLong = structure(list(
varying = list(c("s09as", "f09as", "s10as", "f10as", "s11as",
"f11as", "s12as"), c("s09termGPA", "f09termGPA", "s10termGPA",
"f10termGPA", "s11termGPA", "f11termGPA", "s12termGPA")),
v.names = c("standing", "termGPA"), idvar = c("id", "cohort"
), timevar = "term"), .Names = c("varying", "v.names", "idvar",
"timevar")), class = "data.frame")
以下是繪制數據的一些想法。 我使用過 ggplot2,並且在某些地方對數據進行了一些重新格式化。
我使用堆疊條形圖來模仿您的馬賽克圖並解決對齊問題。
每個學生的數據點由一條灰線連接,讓人聯想到平行坐標圖。 為點着色顯示分類地位。 在 y 軸上使用 GPA 有助於分散點數以減少過度繪制,並顯示排名和 GPA 的相關性。 一個主要問題是許多有效standing
數據點因為缺少匹配的 termGPA 值而丟失。
在這里,我創建了一個名為 initial_standing 的新變量,用於分面。 每個小組都包含在 cohort 和 initial_standing 上都匹配的學生。 將 id 繪制為文本會使該圖有點混亂,但在某些情況下可能會有用。
這個圖就像一個熱圖,其中每一行都是一個學生。 我控制了id
軸的順序以強制 initial_standing 和 cohort 分組保持在一起。 如果您有更多行,您可能需要考慮按某種類型的聚類對行進行排序。
library(ggplot2)
# Create new data frame for determining initial standing.
standing_data = data.frame(id=unique(df1$id), initial_standing=NA, cohort=NA)
for (i in 1:nrow(standing_data)) {
id = standing_data$id[i]
subdat = df1[df1$id == id, ]
subdat = subdat[complete.cases(subdat), ]
initial_standing = subdat$standing[which.min(subdat$term)]
standing_data[i, "initial_standing"] = as.character(initial_standing)
standing_data[i, "cohort"] = as.character(subdat$cohort[1])
}
standing_data$cohort = factor(standing_data$cohort, levels=levels(df1$cohort))
standing_data$initial_standing = factor(standing_data$initial_standing,
levels=levels(df1$standing))
# Add the new column (initial_standing) to df1.
df1 = merge(df1, standing_data[, c("id", "initial_standing")], by="id")
# Remove rows where standing is missing. Make some plots tidier.
df1 = df1[!is.na(df1$standing), ]
# Create id factor, controlling the sort order of the levels.
id_order = order(standing_data$initial_standing, standing_data$cohort)
df1$id = factor(df1$id, levels=as.character(standing_data$id)[id_order])
p1 = ggplot(df1, aes(x=term, fill=standing)) +
geom_bar(position="fill", colour="grey20", size=0.5, width=1.0) +
facet_grid(cohort ~ .) +
scale_fill_brewer(palette="Set1")
p2 = ggplot(df1, aes(x=term, y=termGPA, group=id)) +
geom_line(colour="grey70") +
geom_point(aes(colour=standing), size=4) +
facet_grid(cohort ~ .) +
scale_colour_brewer(palette="Set1")
p3 = ggplot(df1, aes(x=term, y=termGPA, group=id)) +
geom_line(colour="grey70") +
geom_point(aes(colour=standing), size=4) +
geom_text(aes(label=id), hjust=-0.30, size=3) +
facet_grid(initial_standing ~ cohort) +
scale_colour_brewer(palette="Set1")
p4 = ggplot(df1, aes(x=term, y=id, fill=standing)) +
geom_tile(colour="grey20") +
facet_grid(initial_standing ~ ., space="free_y", scales="free_y") +
scale_fill_brewer(palette="Set1") +
opts(panel.grid.major=theme_blank()) +
opts(panel.grid.minor=theme_blank())
ggsave("plot_1.png", p1, width=10, height=6.25, dpi=80)
ggsave("plot_2.png", p2, width=10, height=6.25, dpi=80)
ggsave("plot_3.png", p3, width=10, height=6.25, dpi=80)
ggsave("plot_4.png", p4, width=10, height=6.25, dpi=80)
在研究我的問題時,我發現了一些其他選項,我將在此處列出。
許多相對較新的 R 包專為可視化和分析“生命史”或“多狀態序列”數據而設計。 這個想法是,隨着時間的推移,人們(或物體)進入和退出各種類別——例如,職業變化、結婚和離婚、健康和疾病,或者,在我的例子中,大學學術地位的類別。
用於可視化序列或生命歷史數據的 R 包包括 @timriffe 在上面的評論中提到的biograph和TraMineR 。 biograph 包的作者 Frans Willekens 有一本書介紹這個包, Biograph。 使用 R 進行生活史的多狀態分析,將於今年秋天由 Springer 出版。 TraMineR 在上面的鏈接中有詳細的用戶手冊,還有一篇較短的JSS 文章。 JSS在風險分析的上下文中還有一個關於多狀態模型的特殊問題,討論了用於多狀態建模的附加 R 包。
我還發現了一些專門用於可視化類別之間隨時間變化的軟件。 Parallel Sets是一個簡單的免費程序,用於生成基本的可視化效果,盡管它的靈活性有限。 Lifeflow更加復雜。 它也是免費的,但您必須向創建者發送電子郵件以索取副本。
一旦我有機會試用這些工具,我就會為這個答案添加更多細節。
我希望在編寫 R 程序包來解決此問題之前找到@bdemarest 的答案,但由於 OP 要求進行其他更新,我將再分享一個解決方案。 bdemarest 在圖 4 中建議的是我一直所說的一種水平線圖。
在開發longCatEDA
R 包時,我們發現對數據進行排序對於制作有用的圖至關重要(有關技術細節,請參見example(sorter)
和下面評論中鏈接的報告),尤其是當問題的規模變大時。 例如,我們從 3 年(>1000 天)數千名參與者的每日飲酒數據(戒酒、使用、濫用)開始解決問題。
將水平線圖應用於 @eipi10 的數據的代碼如下。 圖 1 按term
分層,圖 2 按第一個狀態分層,與 @bdemarest 的圖 4 一樣,但由於層內排序,結果並不相同。
# libraries
install.packages('longCatEDA')
library(longCatEDA)
library(RColorBrewer)
# transform data long to wide
dfw <- reshape(df1,
timevar = 'term',
idvar = c('id', 'cohort'),
direction = 'wide')
# set up objects required by longCat()
y <- dfw[,seq(3,15,by=2)]
Labels <- levels(df1$standing)
tLabels <- levels(df1$term)
groupLabels <- levels(dfw$cohort)
# use the same colors as bdemarest
cols <- brewer.pal(7, "Set1")
# plot the longCat object
png('plot1.png', width=10, height=6.25, units='in', res=100)
par(bg='cornsilk3', mar=c(5.1, 4.1, 4.1, 8.1), xpd=TRUE)
lc <- longCat(y=y, Labels=Labels, tLabels=tLabels, id=dfw$id)
longCatPlot(lc, cols=cols, xlab='Term', lwd=8, legendBuffer=0)
legend(8.1, 25, legend=Labels, col=cols, lty=1, lwd=4)
dev.off()
# stratify by term
png('plot2.png', width=10, height=6.25, units='in', res=100)
par(bg='cornsilk3', mar=c(5.1, 4.1, 4.1, 8.1), xpd=TRUE)
lc.g <- sorter(lc, group=dfw$cohort, groupLabels=groupLabels)
longCatPlot(lc.g, cols=cols, xlab='Term', lwd=8, legendBuffer=0)
legend(8.1, 25, legend=Labels, col=cols, lty=1, lwd=4)
dev.off()
# stratify by first status, akin to Figure 4 by bdemarest
png('plot2.png', width=10, height=6.25, units='in', res=100)
par(bg='cornsilk3', mar=c(5.1, 4.1, 4.1, 8.1), xpd=TRUE)
first <- apply(!is.na(y), 1, function(x) which(x)[1])
first <- y[cbind(seq_along(first), first)]
lc.1 <- sorter(lc, group=factor(first), groupLabels = sort(unique(first)))
longCatPlot(lc.1, cols=cols, xlab='Term', lwd=8, legendBuffer=0)
legend(8.1, 25, legend=Labels, col=cols, lty=1, lwd=4)
dev.off()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.