在python中编辑文本文件并制作一个新文件

Question

我有一个这样的文本文件：

>ENST00000511961.1|ENSG00000013561.13|OTTHUMG00000129660.5|OTTHUMT00000370661.3|RNF14-003|RNF14|278
MSSEDREAQEDELLALASIYDGDEFRKAESVQGGETRIYLDLPQNFKIFVSGNSNECLQNSGFEYTICFLPPLVLNFELPPDYPSSSPPSFTLSGKWLSPTQLSALCKHLDNLWEEHRGSVVLFAWMQFLKEETLAYLNIVSPFELKIGSQKKVQRRTAQASPNTELDFGGAAGSDVDQEEIVDERAVQDVESLSNLIQEILDFDQAQQIKCFNSKLFLCSICFCEKLGSECMYFLECRHVYCKACLKDYFEIQIRDGQVQCLNCPEPKCPSVATPGQ
>ENST00000506822.1|ENSG00000013561.13|OTTHUMG00000129660.5|OTTHUMT00000370662.1|RNF14-004|GAPDH|132
MSSEDREAQEDELLALASIYDGDEFRKAESVQGGETRIYLDLPQNFKIFVSGNSNECLQNSGFEYTICFLPPLVLNFELPPDYPSSSPPSFTLSGKWLSPTQLSALCKHLDNLWEEHRGSVVLFAWMQFLKE
>ENST00000513019.1|ENSG00000013561.13|OTTHUMG00000129660.5|OTTHUMT00000370663.1|RNF14-005|ACTB|99
MSSEDREAQEDELLALASIYDGDEFRKAESVQGGETRIYLDLPQNFKIFVSGNSNECLQNSGFEYTICFLPPLVLNFELPPDYPSSSPPSFTLSGKWLS
>ENST00000356143.1|ENSG00000013561.13|OTTHUMG00000129660.5|-|RNF14-202|HELLE|474
MSSEDREAQEDELLALASIYDGDEFRKAESVQGGETRIYLDLPQNFKIFVSGNSNECLQNSGFEYTICFLPPLVLNFELPPDYPSSSPPSFTLSGKWLSPTQLSALCKHLDNLWEEHRGSVVLFAWMQFLKEETLAYLNIVSPFELKIGSQKKVQRRTAQASPNTELDFGGAAGSDVDQEEIVDERAVQDVESLSNLIQEILDFDQAQQIKCFNSKLFLCSICFCEKLGSECMYFLECRHVYCKACLKDYFEIQIRDGQVQCLNCPEPKCPSVATPGQVKELVEAELFARYDRLLLQSSLDLMADVVYCPRPCCQLPVMQEPGCTMGICSSCNFAFCTLCRLTYHGVSPCKVTAEKLMDLRNEYLQADEANKRLLDQRYGKRVIQKAL

我想在python list以“ > ”开头的行的第6个元素。 为此，我首先使用python创建dictionary ，然后键应该是我想要的list 。 像这样：

from itertools import groupby
with open('infile.txt') as f:
    groups = groupby(f, key=lambda x: not x.startswith(">"))
    d = {}
    for k,v in groups:
        if not k:
            key, val = list(v)[0].rstrip(), "".join(map(str.rstrip,next(groups)[1],""))
            d[key] = val


k = d.keys()
res = [el[5:] for s in k for el in s.split("|")]

但是它将返回该行中所有以">".开头的元素">".

你知道如何解决吗？

这是预期的输出：

["RNF14", "GAPDH", "ACTB", "HELLE"]

Answer 1

这应该有所帮助。 ->使用简单的迭代， str.startswith和str.split

演示：

res = []
with open(filename, "r") as infile:
    for line in infile:
        if line.startswith(">"):
            val = line.split("|")
            res.append(val[5])
print(res)

输出：

['RNF14', 'GAPDH', 'ACTB', 'HELLE']

在您的代码中替换

res = [el[5:] for s in k for el in s.split("|")]

同

res = [s.split("|")[5] for s in k ] #Should work.

Answer 2

使用filter而不是groupby和map的解决方案

with open('infile.txt') as f:
    lines = f.readlines()

groups = filter(lambda x: x.startswith(">"), lines)
res = list(map(lambda x: x.split('|')[5],groups))

在python中编辑文本文件并制作一个新文件

问题描述

2 个解决方案

解决方案1
1 2018-06-01 22:00:12

解决方案2
0 2018-06-01 22:25:16

在python中编辑文本文件并制作一个新文件

问题描述

2 个解决方案

解决方案1 1 2018-06-01 22:00:12

解决方案2 0 2018-06-01 22:25:16

解决方案1
1 2018-06-01 22:00:12

解决方案2
0 2018-06-01 22:25:16