繁体   English   中英

解析数据的正则表达式

[英]Regular Expression For Parsing Data

我正在编写一个从简单文本文件中读取一些数据的应用程序。 我感兴趣的数据文件包含以下形式的行:

Mem(100) = 120
Mem(200) = 231
Mem(43) = 12
...
Mem(1293) = 12.54

所以,你可以理解,每一行的模式都是这样的

(\s)*(\t)*Mem([0-9]*) (\s,\t)*= (\s,\t)*[0-9]*(.)*[0-9]*

就像我在字符序列“Mem”之前有任意数量的空格,后跟左括号。 然后,有一个数字和一个右括号。 之后,在遇到'='(等于)字符之前,有任意数量的空格。 然后,任意数量的空格,直到我遇到(可能)浮点数。

如何在C ++正则表达式模式中表达它? 我是C ++中正则表达式概念的新手,所以我需要一些帮助。

谢谢

首先,请记住#include <regex>

C ++ std::regex_match工作方式与其他语言中的正则表达式类似。

让我们从一个简单的例子开始:

std::string str = "Mem(100)=120";
std::regex regex("^Mem\\([0-9]+\\)=[0-9]+$");
std::cout << std::regex_match(str, regex) << std::endl;

在这种情况下,我们的正则表达式是^Mem\\([0-9]+\\)=[0-9]+$ 我们来看看它的作用:

  • 开头的^告诉C ++这是行开始的地方,所以AMem(1)=2不应该匹配。
  • 最后的$告诉C ++这是行结束的地方,所以Mem(1)=2x不匹配。
  • \\\\(是一个文字(字符。) (在正则表达式中有一个非常特殊的含义,所以我们将其转义\\( 。但是, \\字符在C ++字符串中有特殊含义,所以我们使用\\\\(告诉C ++传递) \\(到正则表达式引擎。
  • [0-9]匹配一个数字。 \\\\d也应该有效,但话说再说也许不行
  • [0-9]+表示至少一个数字。 如果Mem()可以接受,则使用[0-9]*代替。

如您所见,这就像您在其他语言(例如Java或C#)中找到的正则表达式一样。

现在,要考虑空格,请使用std::regex regex("^\\\\s*Mem\\\\([0-9]+\\\\)\\\\s*=\\\\s*[0-9]+\\\\s*$");

请注意\\s包含\\t ,因此无需同时指定两者。 如果没有,你可以使用(\\s|\\t)[\\s\\t] ,而不是(\\s,\\t)

最后,要包含浮点数,我们首先需要考虑Mem(1) = 1. (即,后面没有数字的点)是可以接受的。

如果不是,则1.23.23可选的 在正则表达式中,我们使用? 表明这一点。

std::regex regex("^[\\s]*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+(\\.[0-9]+)?\\s*$");

请注意,我们使用\\. 而不仅仅是. . 在正则表达式中有特殊含义 - 它匹配任何字符 - 所以我们需要转义它。

如果你有一个支持原始字符串的编译器(例如Visual Studio 2013GCC 4.5Clang 3.0 ),你可以简化正则表达式字符串:

std::regex regex(R"(^[\s]*Mem\([0-9]+\)\s*=\s*[0-9]+(\.[0-9]+)?\s*$)")

要提取有关匹配字符串的信息,可以使用std::smatchgroups

让我们从一个小小的变化开始:

std::string str = " Mem(100)=120";
std::regex regex("^[\\s]*Mem\\(([0-9]+)\\)\\s*=\\s*([0-9]+(\\.[0-9]+)?)\\s*$");
std::smatch m;

std::cout << std::regex_match(str, m, regex) << std::endl;

注意三件事:

  1. 我们添加了smatch 此类存储有关匹配的额外结果信息。
  2. 我们在[0-9]*附近添加了附加括号。 这定义了一个组。 组告诉正则表达式引擎跟踪其中的内容。
  3. 浮点数周围还有更多括号。 这定义了第二组。

非常重要的是,定义组的括号不会被转义,因为我们不希望它们与实际的括号字符匹配。 我们实际上想要特殊的正则表达式含义。

现在我们有了这些组,我们可以使用它们:

for (auto result : m) {
    std::cout << result << std::endl;
}

这将首先打印整个字符串,然后打印Mem()的数字,然后是最终的数字。

换句话说, m[0]给我们整个匹配, m[1]给我们第一组, m[2]给我们第二组, m[3]给我们第三组,如果我们有一个。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM