我如何獲取python中的特定字段

Question

我有兩行如下

Tp1g00130_scaffold_1    blastn    exon    20495    20602    .    +    .    
Tp1g00130_scaffold_1    blastn    exon    20650    20804    .    +    .

我想做的是如果兩行具有相同的ID（第1列），則合並兩行的seq起始（第1列的第3列）和seq結束（第2列的第4列）。 例如，輸出看起來像

Tp1g00130_scaffold_1    blastn    exon    20495    20804    .    +    .

我有一個良好的開端，但還不能完全結束。

prev = None

with open("test_parse") as fh_in:
    for line in fh_in:
        line = line.strip()
        line = line.split()
        line_id = line[0]
        print line
        if prev is not None and prev == line_id:
            print "yes"
        prev = line_id

有什么幫助嗎？

Answer 1

你快到了。

不僅僅是prev是id ，而是使它成為最后一行。 這使我們可以檢查是否存在和id（ if prev and prev[0] == line[0]: ：）並獲得seq開始和seq結束（ print('{} -> {}'.format(prev[3], line[4])) ）。

prev = None
with open("test_parse") as fh_in:
    for line in fh_in:
        line = line.strip().split()
        if prev and prev[0] == line[0]:
            print(' '.join(prev).replace(prev[4], line[4]).split())
        prev = line

Answer 2

如果文件很小，則可以使用臨時字典。

records = {}

with open("test_parse") as fh_in:
    for line in fh_in:
        id_, f1, f2, start, end, f4, f5, f6 = line.strip().split()
        if id_ in records:
            records[id_][4] = end
        else:
            records[id_] = [id_, f1, f2, start, end, f4, f5, f6]

for line in records.values():
    print "\t".join(line)

Answer 3

如果文件中有一個標題行，則可以使用DictReader 。

對於標題為x，y和z列的文件，您可以執行以下操作：

import DictReader

reader = DictReader(open('sample.csv'))
for line in reader:
    print(line['x'], line['z'])

它的一部分csv模塊通常非常有用。

我如何獲取python中的特定字段

問題描述

3 個解決方案

解決方案1
1 已采納 2015-03-12 21:33:23

解決方案2
1 2015-03-12 21:40:42

解決方案3
0 2015-03-12 21:50:55

我如何獲取python中的特定字段

問題描述

3 個解決方案

解決方案1 1 已采納 2015-03-12 21:33:23

解決方案2 1 2015-03-12 21:40:42

解決方案3 0 2015-03-12 21:50:55

解決方案1
1 已采納 2015-03-12 21:33:23

解決方案2
1 2015-03-12 21:40:42

解決方案3
0 2015-03-12 21:50:55