復印號碼文件格式問題

Question

我的副本編號數據中的.csv文件有問題。 原始的樣子是這樣的：

genes               Log2
PIK3CA,TET2          -0.35
MLH2,NRAS            0.54

而且，我需要的是：

genes                Log2

PIK3CA              -0.35
TET2                -0.35
MLH2                0.54
NRAS                0.54

到目前為止，我已經嘗試了很多方法，但都沒有成功。 該文件是使用CNVkit從胃癌樣本創建的。 該文件更大，基因列表更長，但這實際上是我需要分析cnv數據的工作。

我已經試過了：

awk -F , -v OFS='\t' 'NR == 1 || $0 > 0 {print $4}' copynumber.csv | less

我最近的那個。

我使用Linux，Ubuntu 16.04。 如果您可以通過R或Python腳本幫助我，將不勝感激，但是，到目前為止，任何解決方案都將是不錯的選擇。

Answer 1

我們可以使用separate_rows從tidyr如果您正在使用R.包

library(tidyr)

dat2 <- dat %>% separate_rows(genes)
dat2
#    genes  Log2
# 1 PIK3CA -0.35
# 2   TET2 -0.35
# 3   MLH2  0.54
# 4   NRAS  0.54

數據

dat <- read.table(text = "genes               Log2
PIK3CA,TET2          -0.35
                  MLH2,NRAS            0.54",
                  header = TRUE, stringsAsFactors = FALSE)

Answer 2

使用python可以輕松實現。
您可以先用空格分隔一行，然后遍歷多個逗號分隔的字段。

filename = 'copynumber.csv'
with open(filename, 'r') as fp:
    header = fp.readline()
    print(header)
    for line in fp:
        keys, value = line.split()
        for key in keys.split(','):
            print(key + " " + value)

復印號碼文件格式問題

問題描述

2 個解決方案

解決方案1
1 2018-06-26 15:42:22

解決方案2
0 2018-06-26 15:49:30

復印號碼文件格式問題

問題描述

2 個解決方案

解決方案1 1 2018-06-26 15:42:22

解決方案2 0 2018-06-26 15:49:30

解決方案1
1 2018-06-26 15:42:22

解決方案2
0 2018-06-26 15:49:30