Python 逐行读取一个文件，将多行读成单行

Question

我想从中获取以下文件

日志文件

07:23:07.754 A
07:23:07.759 B  
C
D
E
07:23:07.770 I
07:23:07.770 II
07:23:07.770 III

我希望

07:23:07.754 A
07:23:07.759 B C D E
07:23:07.770 I
07:23:07.770 II
07:23:07.770 III

通过执行这段代码

import re

input_file = "mwe.log"


def read_logfile(full_file, start):
    result_intermediate_line = ''
    with open(input_file, 'r') as fin:
        for _raw_line in fin:
            log_line = _raw_line.rstrip()
            #result = ''
            if start.match(log_line):
                if len(result_intermediate_line) > 0:
                    result = result_intermediate_line
                else:
                    result = log_line
            else:
                result = result_intermediate_line + log_line

            yield result


if __name__ == "__main__":
    number_line = re.compile(r'^\d+\:\d+\:\d+\.\d+\s+')
    for line in read_logfile(input_file, number_line):
        print(line)

应由 python 3.7 及更高版本使用。 所以我的问题是，我希望每一行都带有如上所示的时间戳，以便我可以对单行进行后处理。 所以它可以看作是格式 1 到格式 2 的转换器。

你知道我的错误在哪里吗？

Answer 1

这应该有效：

import re

input_file = "mwe.log"


def read_logfile(input_file, start):
    with open(input_file, "r") as fin:
        result_intermediate_line = next(fin).rstrip()
        for _raw_line in fin:
            log_line = _raw_line.rstrip()
            if start.match(log_line):
                previous_line = result_intermediate_line
                result_intermediate_line = log_line
                yield previous_line
            else:
                result_intermediate_line += " " + log_line
        yield result_intermediate_line


if __name__ == "__main__":
    number_line = re.compile(r"^\d+\:\d+\:\d+\.\d+\s+")
    for line in read_logfile(input_file, number_line):
        print(line)

问题是你总是让出该行，而我只在新行的开头有时间戳时才会让出，否则我 append 到上一行的行。

Answer 2

您也可以完全解析文件并只return一次，如下所示：

def read_logfile(file, pattern):
    result = list()
    with open(file) as fin:
        for line in fin:
            if pattern.match(line.strip()):
                result.append(line.strip())
            else:
                result[-1]+=f" {line.strip()}"
    return "\n".join(result)

>>> print(read_logfile("mwe.log", re.compile(r"^\d+\:\d+\:\d+\.\d+\s+")))
07:23:07.754 A
07:23:07.759 B C D E
07:23:07.770 I
07:23:07.770 II
07:23:07.770 III

Answer 3

另一种方法，利用re.sub的力量：

import re
input_file = "mwe.log"
time_pattern = r'\d+\:\d+\:\d+\.\d+\s+'
new_line_pattern = re.compile(rf'{time_pattern}.*?(?=\n{time_pattern})', re.DOTALL)

with open(input_file, 'r') as fin:
    log = fin.read()
    new_log = re.sub(new_line_pattern, lambda x: x.group(0).replace("\n", " "), log)
    print(new_log)

Output：

07:23:07.754 A
07:23:07.759 B C D E
07:23:07.770 I
07:23:07.770 II
07:23:07.770 III

Answer 4

你用值''初始化变量“result_intermediate_line”... ...并且永远不要改变它。

所以串联

result = result_intermediate_line + log_line

没有任何效果。

Python 逐行读取一个文件，将多行读成单行

问题描述

4 个解决方案

解决方案1
4 已采纳 2021-10-07 12:36:26

解决方案2
3 2021-10-07 12:38:56

解决方案3
2 2021-10-07 12:48:52

解决方案4
1 2021-10-07 12:39:26

Python 逐行读取一个文件，将多行读成单行

问题描述

4 个解决方案

解决方案1 4 已采纳 2021-10-07 12:36:26

解决方案2 3 2021-10-07 12:38:56

解决方案3 2 2021-10-07 12:48:52

解决方案4 1 2021-10-07 12:39:26

解决方案1
4 已采纳 2021-10-07 12:36:26

解决方案2
3 2021-10-07 12:38:56

解决方案3
2 2021-10-07 12:48:52

解决方案4
1 2021-10-07 12:39:26