Pythonic計算字符串列表中出現次數的方法

Question

從目標字符串中的列表中查找字符串出現次數的最佳方法是什么？ 具體來說，我有一個清單：

string_list = [
    "foo",
    "bar",
    "baz"
]

target_string = "foo bar baz bar"

# Trying to write this function!
count = occurrence_counter(target_string) # should return 4

我想優化以最小化速度和內存使用，如果這有所不同。 就大小而言，我希望string_list最終可能包含數百個子串。

Answer 1

使用collelctions.Counter的另一種方法：

from collections import Counter
word_counts = Counter(target_string.split(' '))
total = sum(word_counts.get(w, 0)) for w in string_list)

Answer 2

這有效！

def occurrence_counter(target_string):
    return sum(map(lambda x: x in string_list, target_string.split(' ')))

字符串被分割成標記，然后每個標記在列表中變換為1，否則變為0。 sum函數最后將這些值相加。

編輯：還：

def occurrence_counter(target_string):
    return len(list(filter(lambda x: x in string_list, target_string.split(' '))))

Answer 3

這個Python3應該工作：

In [4]: string_list = [
   ...:     "foo",
   ...:     "bar",
   ...:     "baz"
   ...: ]
   ...: 
   ...: set_of_counted_word = set(string_list)
   ...: 
   ...: def occurrence_counter(target_str, words_to_count=set_of_counted_word):
   ...:     return sum(1 for word in target_str.strip().split()
   ...:                if word in words_to_count)
   ...: 
   ...: 
   ...: for target_string in ("foo bar baz bar", " bip foo bap foo dib baz   "):
   ...:     print("Input: %r -> Count: %i" % (target_string, occurrence_counter(target_string)))
   ...: 
   ...: 
Input: 'foo bar baz bar' -> Count: 4
Input: ' bip foo bap foo dib baz   ' -> Count: 3

In [5]:

Answer 4

您可以使用變量來存儲運行計數，如下所示迭代列表：

def occurence_counter(x):
    count = 0
    for y in x:
        count +=1
    return count

Answer 5

另一種方案：

def occurrence_counter(target_string, string_list):
    target_list = target_string.split(' ')
    return len([w for w in target_list if w in string_list])

Answer 6

sum和string.count組合：

def counter(s, lst)
    return sum(s.count(sub) for sub in lst)

這不會計算相同模式的重疊出現次數。

Answer 7

您可以使用Trie將子字符串轉換為正則表達式模式（例如(?:ba[rz]|foo) ）並解析target_string ：

import re
from trie import Trie

trie = Trie()

substrings = [
    "foo",
    "bar",
    "baz"
]
for substring in substrings:
    trie.add(substring)
print(trie.pattern())
# (?:ba[rz]|foo)

target_string = "foo bar baz bar"
print(len(re.findall(trie.pattern(), target_string)))
# 4

所需的庫在這里： trie.py

它應該比為每個substring解析整個target_string快得多，但它可能不會為重疊的子字符串返回所需的結果。 它為["foo", "bar", "foobar"]和"foobar"返回2 。

一個相關的問題是：“ 在Python 3中加速數百萬的正則表達式替換 ”：這是一個集合的答案和一個帶有trie正則表達式的答案。

Answer 8

我不確定這是最pythonic的方式，但你可以試試：

string_list_B = target_string.split(" ")
commonalities = set(string_list) - (set(string_list) - set(string_list_B))

Pythonic計算字符串列表中出現次數的方法

問題描述

8 個解決方案

解決方案1
4 2017-05-10 13:59:29

解決方案2
3 已采納 2017-05-10 13:53:29

解決方案3
2 2017-05-10 14:21:23

解決方案4
1 2017-05-10 13:58:03

解決方案5
1 2017-05-10 14:00:17

解決方案6
1 2017-05-10 14:05:13

解決方案7
1 2017-05-10 14:29:29

解決方案8
0 2017-05-10 13:54:15

Pythonic計算字符串列表中出現次數的方法

問題描述

8 個解決方案

解決方案1 4 2017-05-10 13:59:29

解決方案2 3 已采納 2017-05-10 13:53:29

解決方案3 2 2017-05-10 14:21:23

解決方案4 1 2017-05-10 13:58:03

解決方案5 1 2017-05-10 14:00:17

解決方案6 1 2017-05-10 14:05:13

解決方案7 1 2017-05-10 14:29:29

解決方案8 0 2017-05-10 13:54:15

解決方案1
4 2017-05-10 13:59:29

解決方案2
3 已采納 2017-05-10 13:53:29

解決方案3
2 2017-05-10 14:21:23

解決方案4
1 2017-05-10 13:58:03

解決方案5
1 2017-05-10 14:00:17

解決方案6
1 2017-05-10 14:05:13

解決方案7
1 2017-05-10 14:29:29

解決方案8
0 2017-05-10 13:54:15