C++中正則表達式的特殊字符問題

Question

我有一個問題要替換字符串中的特殊字符（來自 IIS Sharepoint 日志文件），其中包含帶有正斜杠的域名和以 t、n、r 開頭的名稱，這會與正則表達式混淆。 我的代碼如下：

std::setlocale(LC_ALL, ".ACP"); //Sets the locale to the ANSI code page obtained from the operating system. FR characters
std::string subject("2018-08-26 11:38:20 172.20.1.148 GET /BaseDocumentaire/Documents+de+la+page+Notes+de+services/Rappel+du+dispositif+de+Sécurité+relatif+aux+Moyens+de+paiement+et+d’épargne+en+agence.pdf - 80 0#.w|domainname\tonzaro 10.12.105.24 Mozilla/5.0+(Windows+NT+10.0;+Win64;+x64;+rv:61.0)+Gecko/20100101+Firefox/61.0 200 0 0 29984");
std::string result;
std::string g1, g2, g5, g9, g10; //str groups in regex

    try {
        std::regex re("(\\d{4}-\\d{2}-\\d{2})( \\d{2}:\\d{2}:\\d{2})( 172.20.1.148)( GET | POST | HEAD )((/.*){1,4}/.*.(pdf|aspx))( -.*)(domainname.[a-zA-Z0-9]*)( \\d+.\\d+.\\d+.\\d+)");
        std::sregex_iterator next(subject.begin(), subject.end(), re);
        std::sregex_iterator end;

        while (next != end) {
            std::smatch match = *next;
            std::cout << match.str() << "\n";
            std::cout << "-------------------------------------------" << "\n";
            g1 = match.str(1);
            g2 = match.str(2);
            g5 = match.str(5);
            g9 = match.str(9);
            g10 = match.str(10);
            next++;
        }

        std::cout << "Date: " + g1 << "\n";
        std::cout << "Time: " + g2 << "\n";
        std::replace(g5.begin(), g5.end(), '+', ' ');
        std::cout << "Link Document : " + g5 << "\n";
        std::cout << "User: " + g9 << "\n";
        std::cout << "IP: " + g10 << "\n";

    }
    catch (std::regex_error& e) {
        std::cout << "Syntax error in the regular expression" << "\n";
    }

我的域名輸出是： domainname onzaro

請幫助解決 \\, \\t, \\n 或 \\r 的這個問題？

Answer 1

我強烈建議您使用原始字符串文字。 這是為不應以任何方式處理文字的情況而設計的解決方案，例如您的情況。

語法是R "delimiter( raw_characters )delimiter" ，所以在你的情況下它可能是：

std::string subject(R"raw(2018-08-26 11:38:20 172.20.1.148 GET /BaseDocumentaire/Documents+de+la+page+Notes+de+services/Rappel+du+dispositif+de+Sécurité+relatif+aux+Moyens+de+paiement+et+d’épargne+en+agence.pdf - 80 0#.w|domainname\tonzaro 10.12.105.24 Mozilla/5.0+(Windows+NT+10.0;+Win64;+x64;+rv:61.0)+Gecko/20100101+Firefox/61.0 200 0 0 29984)raw");
std::regex re( R"raw((\d{4}-\d{2}-\d{2})( \d{2}:\d{2}:\d{2})( 172.20.1.148)( GET | POST | HEAD )((/.*){1,4}/.*.(pdf|aspx))( -.*)(domainname.[a-zA-Z0-9]*)( \d+.\d+.\d+.\d+))raw");

（我可能錯過了上面一些多余的\\ ）。 現場觀看。

這些特殊字符被稱為轉義序列，正在編譯級別在字符串文字中進行處理（准確地說是在第 5 階段）。 對於原始字符串文字，此轉換被抑制。

你不關心任何特殊的字符處理。 您只需要注意")delimiter"不會出現在您的文字中，我想這可能會發生在正則表達式中。

Answer 2

'\\t'是一個字符，一個水平制表符。 如果你想要字符\\和t ，你需要轉義反斜杠： "\\\\t" 。

C++中正則表達式的特殊字符問題

問題描述

2 個解決方案

解決方案1
1 2018-09-07 12:50:57

解決方案2
0 2018-09-07 11:58:21

C++中正則表達式的特殊字符問題

問題描述

2 個解決方案

解決方案1 1 2018-09-07 12:50:57

解決方案2 0 2018-09-07 11:58:21

解決方案1
1 2018-09-07 12:50:57

解決方案2
0 2018-09-07 11:58:21