R：如何根據第一個字符 0|0 vs 1|0 vs 0|1 vs 1|1 重新編碼值

Question

預先感謝您的幫助。

我正在研究一個名為“gg”的數據框，它包含大約 120 列（每個 SNP 一個）和 1500 行（研究中的每個主題一個）。

我正在嘗試將 SNP 從其當前格式重新編碼為更易於分析的格式：

我嘗試了幾種方法。 我最近嘗試的事情已經接近了。 我嘗試了以下方法：

gg[grep("0|0", gg)] <- "0"

奇怪的是，這使得整個數據庫的所有值都為 0。 我認為這是因為它將 0|0 解釋為“如果值包含零或零，則重新編碼為零”（並且所有值都至少包含一個零）。

我想傳達的是，如果值以 EXACT 字符 0|0 開頭，則重新編碼為 1，如果它以 0|1 或 1|0 的 EXACT 字符開頭，則重新編碼為 1，如果它以 EXACT 開頭，則重新編碼為 2 1|1 的字符

Answer 1

試試下面的代碼

colSums(list2DF(strsplit(substr(gsub("\\|","",gg),1,2),""))=="1")

這使

0 1 1 2

虛擬數據

gg <- c('0|0:0,0:0:1,0,0','10:0,0:0:1,0,0','0|1:0,0:0:1,0,0','11:0,0:0:1,0,0')

Answer 2

稍作修改的選項是

rowSums(read.csv(text = sub("^(\\d)\\|?(\\d).*", "\\1,\\2", gg), 
         header = FALSE) == 1)
#[1] 0 1 1 2

gg <- c('0|0:0,0:0:1,0,0','10:0,0:0:1,0,0','0|1:0,0:0:1,0,0','11:0,0:0:1,0,0')