如何有效計算字符串中字符出現頻率的前綴和？

Question

說，我有一個字符串

s = 'AAABBBCAB'

如何有效地計算字符串中每個字符的頻率前綴和，即：

psum = [{'A': 1}, {'A': 2}, {'A': 3}, {'A': 3, 'B': 1}, {'A': 3, 'B': 2}, {'A': 3, 'B': 3}, {'A': 3, 'B': 3, 'C': 1}, {'A': 4, 'B': 3, 'C': 1}, {'A': 4, 'B': 4, 'C': 1}]

Answer 1

您可以使用itertools.accumulate和collections.Counter在一行中完成：

from collections import Counter
from itertools import accumulate

s = 'AAABBBCAB'
psum = list(accumulate(map(Counter, s)))

這將為您提供Counter對象列表。 現在，要在O（1）時間內獲取s任何子字符串的頻率，您可以簡單地減去計數器，例如：

>>> psum[6] - psum[1]  # get frequencies for s[2:7]
Counter({'B': 3, 'A': 1, 'C': 1})

Answer 2

這是一個選項：

from collections import Counter

c = Counter()
s = 'AAABBBCAB'

psum = []
for char in s:
    c.update(char)
    psum.append(dict(c))

# [{'A': 1}, {'A': 2}, {'A': 3}, {'A': 3, 'B': 1}, {'A': 3, 'B': 2}, 
#  {'A': 3, 'B': 3}, {'A': 3, 'B': 3, 'C': 1}, {'A': 4, 'B': 3, 'C': 1},
#  {'A': 4, 'B': 4, 'C': 1}]

我使用collections.Counter來保持'運行總和'並將（結果的副本）添加到列表psum 。 這樣我只在字符串s迭代一次。

如果您希望在結果中包含collections.Counter對象，則可以將最后一行更改為

psum.append(c.copy())

為了得到

[Counter({'A': 1}), Counter({'A': 2}), ...
 Counter({'A': 4, 'B': 4, 'C': 1})]

同樣的結果也可以通過這個來實現（使用accumulate首先在Eugene Yarmash的答案中提出;我只是避免使用map來支持生成器表達式）：

from itertools import accumulate
from collections import Counter

s = "AAABBBCAB"
psum = list(accumulate(Counter(char) for char in s))

只是為了完整性（因為這里沒有'純粹的dict '答案）。 如果您不想使用Counter或defaultdict您也可以使用它：

c = {}
s = 'AAABBBCAB'

psum = []
for char in s:
    c[char] = c.get(char, 0) + 1
    psum.append(c.copy())

雖然defaultdict通常比dict.get(key, default)更dict.get(key, default) 。

Answer 3

最簡單的方法是使用集合中的Counter對象。

from collections import Counter

s = 'AAABBBCAB'

[ dict(Counter(s[:i]) for i in range(1,len(s))]

產量：

[{'A': 1},  {'A': 2},  {'A': 3},  {'A': 3, 'B': 1},  {'A': 3, 'B': 2},
{'A': 3, 'B': 3},  {'A': 3, 'B': 3, 'C': 1},  {'A': 4, 'B': 3, 'C': 1}]

Answer 4

你實際上甚至不需要一個計數器，只需一個默認就足夠了！

from collections import defaultdict

c = defaultdict(int)
s = 'AAABBBCAB'

psum = []

#iterate through the character
for char in s:
    #Update count for each character
    c[char] +=1
    #Add the updated dictionary to the output list
    psum.append(dict(c))

print(psum)

輸出看起來像

[{'A': 1}, {'A': 2}, {'A': 3}, {'A': 3, 'B': 1}, 
{'A': 3, 'B': 2}, {'A': 3, 'B': 3}, 
{'A': 3, 'B': 3, 'C': 1}, {'A': 4, 'B': 3, 'C': 1}, 
{'A': 4, 'B': 4, 'C': 1}]

Answer 5

在Python 3.8中，您可以使用帶有賦值表達式的列表推導（也稱為“海象運算符”）：

>>> from collections import Counter
>>> s = 'AAABBBCAB'
>>> c = Counter()
>>> [c := c + Counter(x) for x in s]
[Counter({'A': 1}), Counter({'A': 2}), Counter({'A': 3}), Counter({'A': 3, 'B': 1}), Counter({'A': 3, 'B': 2}), Counter({'A': 3, 'B': 3}), Counter({'A': 3, 'B': 3, 'C': 1}), Counter({'A': 4, 'B': 3, 'C': 1}), Counter({'A': 4, 'B': 4, 'C': 1})]

Answer 6

試試這個：

>>> s = 'AAABBBCAB'
>>> res = [{letter_: s[0:i+1].count(letter_) for letter_ in set(s[0:i+1])} for i in range(len(s))]
>>> res
[{'A': 1}, {'A': 2}, {'A': 3}, {'B': 1, 'A': 3}, {'B': 2, 'A': 3}, {'B': 3, 'A': 3}, {'B': 3, 'C': 1, 'A': 3}, {'B': 3, 'C': 1, 'A': 4}, {'B': 4, 'C': 1, 'A': 4}]

如何有效計算字符串中字符出現頻率的前綴和？

問題描述

5 個解決方案

解決方案1
20 2019-04-29 13:30:07

解決方案2
19 2019-04-29 13:18:52

解決方案3
6 2019-04-29 13:19:33

解決方案4
6 2019-04-29 13:33:12

解決方案5
1 2019-08-16 16:10:32

解決方案6
0 2019-08-30 09:29:09

如何有效計算字符串中字符出現頻率的前綴和？

問題描述

5 個解決方案

解決方案1 20 2019-04-29 13:30:07

解決方案2 19 2019-04-29 13:18:52

解決方案3 6 2019-04-29 13:19:33

解決方案4 6 2019-04-29 13:33:12

解決方案5 1 2019-08-16 16:10:32

解決方案6 0 2019-08-30 09:29:09

解決方案1
20 2019-04-29 13:30:07

解決方案2
19 2019-04-29 13:18:52

解決方案3
6 2019-04-29 13:19:33

解決方案4
6 2019-04-29 13:33:12

解決方案5
1 2019-08-16 16:10:32

解決方案6
0 2019-08-30 09:29:09