一种更好的方式来读取文本的子字符串而无需循环/ python

Question

我正在从文件中读取行，然后在循环中遍历k个大小的每个重叠子字符串，然后处理这些字符串。 哪种更好（更有效，更优雅）的方式读取子字符串？ 如何制作没有循环的列表？

for line in lines[1::4]:
    startIdx = 0
    while startIdx + k <= len(line):
        substring = line[startIdx:(startIdx+k)]
        countFromSb[substring] = countFromSb.get(substring, 0) + 1
        startIdx += 1
    linesProcessed += 1

Answer 1

通过使用collections.Counter实例可以使其更加优雅

countFromSb = Counter()
# ...
n = -1
for n, line in enumerate(lines[1::4]):
    countFromSb.update(line[i:i+k] for i in range(1+len(line)-k))
lines_processed = n + 1

Answer 2

您不能以比O（N）更快的速度迭代序列的固定大小的切片，因此您当前的方法已经足够高效。

在优雅方面，您可以将迭代抽象到其自己的函数中，这将使您的当前作用域减少一个字母变量名的混乱：

def iter_slices(s, size):
    for i in range(len(s)-size+1):
        yield s[i:i+size]

for line in lines[1::4]:
    for substring in iter_slices(line, k):
        countFromSb[substring] = countFromSb.get(substring, 0) + 1
    linesProcessed += 1

这也可以与Gribouillis的使用Counter的建议相结合，完全消除了for块：

countFromSb = Counter(substring for line in lines[1::4] for substring in iter_slices(line, k))

一种更好的方式来读取文本的子字符串而无需循环/ python

问题描述

2 个解决方案

解决方案1
1 2017-07-27 14:33:55

解决方案2
1 2017-07-27 14:35:50

一种更好的方式来读取文本的子字符串而无需循环/ python

问题描述

2 个解决方案

解决方案1 1 2017-07-27 14:33:55

解决方案2 1 2017-07-27 14:35:50

解决方案1
1 2017-07-27 14:33:55

解决方案2
1 2017-07-27 14:35:50