解析数据的正则表达式

Question

我正在编写一个从简单文本文件中读取一些数据的应用程序。 我感兴趣的数据文件包含以下形式的行：

Mem(100) = 120
Mem(200) = 231
Mem(43) = 12
...
Mem(1293) = 12.54

所以，你可以理解，每一行的模式都是这样的

(\s)*(\t)*Mem([0-9]*) (\s,\t)*= (\s,\t)*[0-9]*(.)*[0-9]*

就像我在字符序列“Mem”之前有任意数量的空格，后跟左括号。 然后，有一个数字和一个右括号。 之后，在遇到'='（等于）字符之前，有任意数量的空格。 然后，任意数量的空格，直到我遇到（可能）浮点数。

如何在C ++正则表达式模式中表达它？ 我是C ++中正则表达式概念的新手，所以我需要一些帮助。

谢谢

Answer 1

首先，请记住#include <regex> 。

C ++ std::regex_match工作方式与其他语言中的正则表达式类似。

让我们从一个简单的例子开始：

std::string str = "Mem(100)=120";
std::regex regex("^Mem\\([0-9]+\\)=[0-9]+$");
std::cout << std::regex_match(str, regex) << std::endl;

在这种情况下，我们的正则表达式是^Mem\$[0-9]+\$=[0-9]+$ 。 我们来看看它的作用：

开头的^告诉C ++这是行开始的地方，所以AMem(1)=2不应该匹配。
最后的$告诉C ++这是行结束的地方，所以Mem(1)=2x不匹配。
\\\\(是一个文字(字符。） (在正则表达式中有一个非常特殊的含义，所以我们将其转义\\( 。但是， \\字符在C ++字符串中有特殊含义，所以我们使用\\\\(告诉C ++传递） \\(到正则表达式引擎。
[0-9]匹配一个数字。 \\\\d也应该有效，但话说再说也许不行。
[0-9]+表示至少一个数字。 如果Mem()可以接受，则使用[0-9]*代替。

如您所见，这就像您在其他语言（例如Java或C＃）中找到的正则表达式一样。

现在，要考虑空格，请使用std::regex regex("^\\\\s*Mem\\\$[0-9]+\\\$\\\\s*=\\\\s*[0-9]+\\\\s*$");

请注意\\s包含\\t ，因此无需同时指定两者。 如果没有，你可以使用(\\s|\\t)或[\\s\\t] ，而不是(\\s,\\t) 。

最后，要包含浮点数，我们首先需要考虑Mem(1) = 1. （即，后面没有数字的点）是可以接受的。

如果不是，则1.23的.23是可选的 。 在正则表达式中，我们使用? 表明这一点。

std::regex regex("^[\\s]*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+(\\.[0-9]+)?\\s*$");

请注意，我们使用\\. 而不仅仅是. 。 . 在正则表达式中有特殊含义 - 它匹配任何字符 - 所以我们需要转义它。

如果你有一个支持原始字符串的编译器（例如Visual Studio 2013 ， GCC 4.5 ， Clang 3.0 ），你可以简化正则表达式字符串：

std::regex regex(R"(^[\s]*Mem\([0-9]+\)\s*=\s*[0-9]+(\.[0-9]+)?\s*$)")

要提取有关匹配字符串的信息，可以使用std::smatch和groups 。

让我们从一个小小的变化开始：

std::string str = " Mem(100)=120";
std::regex regex("^[\\s]*Mem\\(([0-9]+)\\)\\s*=\\s*([0-9]+(\\.[0-9]+)?)\\s*$");
std::smatch m;

std::cout << std::regex_match(str, m, regex) << std::endl;

注意三件事：

我们添加了smatch 。 此类存储有关匹配的额外结果信息。
我们在[0-9]*附近添加了附加括号。 这定义了一个组。 组告诉正则表达式引擎跟踪其中的内容。
浮点数周围还有更多括号。 这定义了第二组。

非常重要的是，定义组的括号不会被转义，因为我们不希望它们与实际的括号字符匹配。 我们实际上想要特殊的正则表达式含义。

现在我们有了这些组，我们可以使用它们：

for (auto result : m) {
    std::cout << result << std::endl;
}

这将首先打印整个字符串，然后打印Mem()的数字，然后是最终的数字。

换句话说， m[0]给我们整个匹配， m[1]给我们第一组， m[2]给我们第二组， m[3]给我们第三组，如果我们有一个。

解析数据的正则表达式

问题描述

1 个解决方案

解决方案1
22 已采纳 2013-10-11 21:52:29

解析数据的正则表达式

问题描述

1 个解决方案

解决方案1 22 已采纳 2013-10-11 21:52:29

解决方案1
22 已采纳 2013-10-11 21:52:29