在不同大小的python块中遍历字符串

Question

所以我正在用python处理文件，感觉它们有一个名字，但是我不确定它是什么。 它们就像csv文件，但没有分隔符。 无论如何，在我的文件中，我都有很多行数据，其中前7个字符是ID号，然后下5个字符是其他数字，依此类推。 所以我想遍历文件，读取每一行并将其拆分并存储到列表中。 这是一个例子：

来自文件： "0030108102017033119080001010048000000"

这些是我想将字符串分割成的块： [7, 2, 8, 6, 2, 2, 5, 5]每个数字代表每个块的长度。

首先，我尝试了这个：

n = [7, 2, 8, 6, 2, 2, 5, 5]
for i in range(0, 37, n):
    print(i)

自然这是行不通的，所以现在我开始考虑可能的方法，而且它们似乎都非常复杂。 我在网上四处张望，似乎什么也找不到，甚至找不到大小的块。 有什么输入吗？

编辑：在这种情况下，我正在寻找的答案应如下所示： ['0030108', '10', '20170331', '190800', '01', '01', '00480', '00000']其中列表n中的每个值代表每个块的长度。

Answer 1

如果这些是ASCII字符串（或者每个字符一个字节），那么我可以使用struct.unpack 。

>>> import struct
>>> sizes = [7, 2, 8, 6, 2, 2, 5, 5]
>>> struct.unpack(''.join("%ds" % x for x in sizes), "0030108102017033119080001010048000000")
('0030108', '10', '20170331', '190800', '01', '01', '00480', '00000')
>>>

否则，您可以从部分大小的和中构造必要的slice对象，如果您使用的是Python 3，这很容易做到：

>>> psums = list(itertools.accumulate([0] + sizes))
>>> [s[slice(*i)] for i in zip(psums, psums[1:])]
['0030108', '10', '20170331', '190800', '01', '01', '00480', '00000']

accumulate可以在Python 2中用类似的方式实现

def accumulate(itr):
    total = 0
    for x in itr:
        total += x
        yield total

Answer 2

from itertools import accumulate, chain
s = "0030108102017033119080001010048000000"
n = [7, 2, 8, 6, 2, 2, 5, 5]
ranges = list(accumulate(n))
list(map(lambda i: s[i[0]:i[1]], zip(chain([0], ranges), ranges))
# ['0030108', '10', '20170331', '190800', '01', '01', '00480', '00000']

Answer 3

你可以试试这个吗？

for line in file:
    n = [7, 2, 8, 6, 2, 2, 5, 5]
    total = 0
    for i in n:
        print(line[total:total+i])
        total += i

这就是我可能要做的。 代码遍历文件的每一行，对于每一行，遍历您需要拉出的长度列表n （位于列表n 。 可以将其修改为执行其他操作而不是打印，但是这样做的目的是从该行返回一个切片。 total变量跟踪我们到行中的距离。

Answer 4

这是一个生成器，它通过遍历lsit的字符并从中形成子串来产生块。 您可以使用此方法以这种方式处理任何可迭代的对象：

def chunks(s, sizes):
    it = iter(s)
    for size in sizes:
        l = []
        try:
            for _ in range(size):
                l.append(next(it))
        finally:
            yield ''.join(l)

s="0030108102017033119080001010048000000"
n = [7, 2, 8, 6, 2, 2, 5, 5]
print(list(chunks(s, n)))
# ['0030108', '10', '20170331', '190800', '01', '01', '00480', '00000']

在不同大小的python块中遍历字符串

问题描述

4 个解决方案

解决方案1
3 2018-07-05 14:44:04

解决方案2
2 2018-07-05 14:52:04

解决方案3
1 已采纳 2018-07-05 14:43:38

解决方案4
0 2018-07-05 14:39:55

在不同大小的python块中遍历字符串

问题描述

4 个解决方案

解决方案1 3 2018-07-05 14:44:04

解决方案2 2 2018-07-05 14:52:04

解决方案3 1 已采纳 2018-07-05 14:43:38

解决方案4 0 2018-07-05 14:39:55

解决方案1
3 2018-07-05 14:44:04

解决方案2
2 2018-07-05 14:52:04

解决方案3
1 已采纳 2018-07-05 14:43:38

解决方案4
0 2018-07-05 14:39:55