簡體   English   中英

使用\\ n和\\ t分隔數據

[英]Separating Data using \n AND \t

我試圖在rstudio中使用“ \\ n”將數據分成幾列,然后再使用“ \\ t”將該數據進一步分成幾行。 到目前為止,我已經能夠通過“ \\ n”分隔數據,但是我無法弄清楚如何通過“ \\ t”進一步分隔數據。 我在使用的數據中找不到任何標題名稱,因為它是我從msigdb網站下載的表格。 這是我到目前為止的內容: matrix_sep_by_enter<-read.table("msigdb.v5.2.symbols.txt",sep = "\\n")

如何使用“ \\ t”進一步分開

謝謝!

我不確定您要如何解析MSigDB。 我已經下載了最新的MSigDB GMT文件,因此我將向您展示基於該文件的可能性。

  1. 讀取GMT文件。

     df <- read.table("msigdb.v6.1.symbols.gmt", sep = "\\n"); 

    這將創建一個data.frame ,其中包含一列和GMT文件中的行數。

  2. 根據"\\t"每一行拆分為子字符串

     lst <- apply(df, 1, function(x) unname(unlist(strsplit(x, "\\t")))); 

    結果存儲在字符向量list中(長度不同),其中第一個條目給出了基因集名稱,第二個條目給出了MSigDB基因集網頁鏈接,其余條目是與該基因集相關的基因符號。

     str(lst, list.len = 5); #List of 17786 # $ : chr [1:195] "AAANWWTGC_UNKNOWN" "http://www.broadinstitute.org/gsea/msigdb/cards/AAANWWTGC_UNKNOWN" "MEF2C" "ATP1B1" ... # $ : chr [1:376] "AAAYRNCTG_UNKNOWN" "http://www.broadinstitute.org/gsea/msigdb/cards/AAAYRNCTG_UNKNOWN" "LTBP1" "PLEKHM1" ... # $ : chr [1:267] "MYOD_01" "http://www.broadinstitute.org/gsea/msigdb/cards/MYOD_01" "KCNE1L" "FAM126A" ... # $ : chr [1:255] "E47_01" "http://www.broadinstitute.org/gsea/msigdb/cards/E47_01" "MLIP" "FAM126A" ... # $ : chr [1:251] "CMYB_01" "http://www.broadinstitute.org/gsea/msigdb/cards/CMYB_01" "FAM126A" "C5orf64" ... # [list output truncated] 

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM