python-正则表达式解析日志

Question

我有以下我想解析的日志行

<log pos_start="40652288" end_position="40689664" log_type="1" length="37376" block_id="4024" block_position="18"/>

我正在使用python regex，这是我到目前为止所做的

regexParse = re.match(".*pos_start=(\d+).*end_position=(\d+).*log_type=(\d+).*length=(\d+).*block_id=(\d+).*block_position=(\d+).*",StatelogLine)
start_position = regexParse.group(1)
end_position = regexParse.group(2)

我收到以下错误

AttributeError: 'NoneType' object has no attribute 'group'

任何人都有任何想法是什么问题

Answer 1

非常简单： 由于未指定双引号 ，因此您的正则表达式与字符串不匹配。 如果添加它们，则您的正则表达式将起作用。
作为副节点，点星汤（ .* ）效率很低。 为什么不使用解析器呢？

考虑以下代码与BeautifulSoup ：

from bs4 import BeautifulSoup
string = """<log pos_start="40652288" end_position="40689664" log_type="1" length="37376" block_id="4024" block_position="18"/>"""
xml = BeautifulSoup(string)
print xml.log["pos_start"]
# 40652288

之后，您可以像数组一样访问元素，而无需德鲁伊正则表达式。 看看他们的主页和文档。

Answer 2

您可以解析该行，例如获得键和值： Regex Demo

(\\w+)="(\\d+)"

如果需要，您还可以根据它创建一个字典：

import re

s = '<log pos_start="40652288" end_position="40689664" log_type="1" length="37376" block_id="4024" block_position="18"/>'

matches = re.findall(r'(\w+)="(\d+)"', s)
#[('pos_start', '40652288'),
# ('end_position', '40689664'),
# ('log_type', '1'),
# ('length', '37376'),
# ('block_id', '4024'),
# ('block_position', '18')]

d = dict(matches)
#{'block_id': '4024',
# 'block_position': '18',
# 'end_position': '40689664',
# 'length': '37376',
# 'log_type': '1',
# 'pos_start': '40652288'}

Answer 3

您的正则表达式不正确。 您需要转义双引号以使其成功。

.*pos_start=\"(\d+)\" +end_position=\"(\d+)\" +log_type=\"(\d+)\" +length=\"(\d+)\" +block_id=\"(\d+)\" +block_position=\"(\d+)\"

Answer 4

你忘了双qoutes

regexParse = re.match(".*pos_start=\"(\d+)\".*end_position=\"(\d+)\".*log_type=\"(\d+)\".*length=\"(\d+)\".*block_id=\"(\d+)\".*block_position=\"(\d+)\".*",s)

python-正则表达式解析日志

问题描述

4 个解决方案

解决方案1
3 2016-04-18 06:46:37

解决方案2
2 已采纳 2016-04-18 07:10:37

解决方案3
1 2016-04-18 06:47:55

解决方案4
0 2016-04-18 06:48:50

python-正则表达式解析日志

问题描述

4 个解决方案

解决方案1 3 2016-04-18 06:46:37

解决方案2 2 已采纳 2016-04-18 07:10:37

解决方案3 1 2016-04-18 06:47:55

解决方案4 0 2016-04-18 06:48:50

解决方案1
3 2016-04-18 06:46:37

解决方案2
2 已采纳 2016-04-18 07:10:37

解决方案3
1 2016-04-18 06:47:55

解决方案4
0 2016-04-18 06:48:50