在python中計算頻率時忽略一條線

Question

我在文本文件中有以下格式。

-FRFR
YOUAREMYFRIEND
-JKJK
YOUARENOTMYFRIEND
-SSFF
LETUSBEFRIENDS

我想計算不以“-”開頭的行中每個字母的頻率，它是一個巨大的文件，所以我不能只是復制。

有沒有我可以做的

for line in str

if line starts with '-'
      then dont count that line
else:
      do count the line

total_length = 0
nucleotide = {}

seq_file = open("file.txt", "r")
for raw_line in seq_file:
    line = raw_line.rstrip("\r\n")
    length = len(line)
    for nuc in line:
        if nucleotide.has_key(nuc): 
            nucleotide[nuc] += 1
        else:
            nucleotide[nuc] = 1
    total_length += length

seq_file.close()

Answer 1

您可以使用collections.Counter() ：

from collections import Counter

results = Counter()
with open('input.txt', 'r') as f:
    for line in f:
        if line.startswith('-'):
            continue

        results.update(line)

print results

印刷：

Counter({'E': 7, 'R': 5, 'N': 4, 'Y': 4, 'D': 3, 'F': 3, 'I': 3, 'O': 3, 'U': 3, 'A': 2, '\n': 2, 'M': 2, 'S': 2, 'T': 2, 'B': 1, 'L': 1})

您還可以打印出 n 個最常見的項目，例如：

print results.most_common(3)

印刷：

[('E', 7), ('R', 5), ('N', 4)]

Answer 2

我認為應該可以測試該行的第一個字符。 例如：

if (line[0] != '-'): count +=1

在python中計算頻率時忽略一條線

問題描述

2 個解決方案

解決方案1
7 已采納 2014-04-02 15:45:45

解決方案2
0 2014-04-02 15:48:20

在python中計算頻率時忽略一條線

問題描述

2 個解決方案

解決方案1 7 已采納 2014-04-02 15:45:45

解決方案2 0 2014-04-02 15:48:20

解決方案1
7 已采納 2014-04-02 15:45:45

解決方案2
0 2014-04-02 15:48:20