[英]Copy number file format Issue
我的副本編號數據中的.csv
文件有問題。 原始的樣子是這樣的:
genes Log2
PIK3CA,TET2 -0.35
MLH2,NRAS 0.54
而且,我需要的是:
genes Log2
PIK3CA -0.35
TET2 -0.35
MLH2 0.54
NRAS 0.54
到目前為止,我已經嘗試了很多方法,但都沒有成功。 該文件是使用CNVkit從胃癌樣本創建的。 該文件更大,基因列表更長,但這實際上是我需要分析cnv數據的工作。
我已經試過了:
awk -F , -v OFS='\t' 'NR == 1 || $0 > 0 {print $4}' copynumber.csv | less
我最近的那個。
我使用Linux,Ubuntu 16.04。 如果您可以通過R或Python腳本幫助我,將不勝感激,但是,到目前為止,任何解決方案都將是不錯的選擇。
我們可以使用separate_rows
從tidyr
如果您正在使用R.包
library(tidyr)
dat2 <- dat %>% separate_rows(genes)
dat2
# genes Log2
# 1 PIK3CA -0.35
# 2 TET2 -0.35
# 3 MLH2 0.54
# 4 NRAS 0.54
數據
dat <- read.table(text = "genes Log2
PIK3CA,TET2 -0.35
MLH2,NRAS 0.54",
header = TRUE, stringsAsFactors = FALSE)
使用python可以輕松實現。
您可以先用空格分隔一行,然后遍歷多個逗號分隔的字段。
filename = 'copynumber.csv'
with open(filename, 'r') as fp:
header = fp.readline()
print(header)
for line in fp:
keys, value = line.split()
for key in keys.split(','):
print(key + " " + value)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.