簡體   English   中英

使用C#刪除帶有正則表達式的文本行

[英]Stripping text line with regular expression with c #

在下面顯示的文本中,我需要提取雙引號之間的信息(輸入是文本文件)

Tag = "571EC002A-TD"

Tag = "571GI001-RUN"

Tag = "571GI001-TD"

輸出應該是

571EC002A-TD

571GI001-RUN

571GI001-TD

如何在C#中構造正則表達式以使其匹配並將其保存到文本文件。

在將所有行讀入代碼之前,我一直很成功,但是regex給了我一些不希望的值。

謝謝,並提前感謝。

一個簡單的正則表達式可以是:

Regex tagRegex = new Regex(@"Tag\s?=\s?""(.+?)""");

輸入示例

更新

對於那些問為什么不使用String.Substring的人:正則表達式相對於字符串操作的最大優點是,它們不會生成臨時字符串,直到您真正要求匹配的值為止。 匹配項和組僅包含源字符串的索引。 處理日志文件時,這是一個巨大的優勢。


您可以使用以下正則表達式來匹配標簽的內容

Tag\s*=\s*"(<tagValue>.*?)"

? .*? 導致非貪婪搜索,即僅提取直到第一個雙引號的文本。 否則,該模式將匹配所有內容,直到最后一個雙引號為止。

(<tagValue>.*?)定義一個命名組。 這樣,您可以引用按名稱捕獲的實際值,甚至可以使用LINQ處理值

轉義后,生成的C#代碼可能如下所示:

var myRegex=new Regex("Tag\\s*=\\s*\"(<tagValue>.*?)\"");
...
var tags=myRegex.Matches(someText)
                .OfType<Match>()
                .Select(match=>match.Groups["tagValue"].Value);

結果是帶有所有標記值的IEnumerable。 您可以像其他任何IEnumerable一樣,使用ToArray()ToList()將其轉換為數組或列表

使用循環的等效代碼是

var myRegex=new Regex("Tag\\s*=\\s*\"(<tagValue>.*?)\"");
...
List<string> tagValues=new List<string>();
foreach(Match m in myRegex.Matches(someText))
{
    tagValues.Add(m.Groups["tagValue"].Value;
}

LINQ版本雖然可以很容易地擴展。 例如, File.ReadLines返回IEnumerable,並且在返回之前不等待將所有內容加載到內存中。 您可以這樣寫:

var tags=File.ReadLines(myBigLog)
             .SelectMany(line=>myRegex.Matches(line))
             .OfType<Match>()
             .Select(match=>match.Groups["tagValue"].Value);

如果標簽名稱更改,您也可以捕獲標簽名稱。 例如,如果標簽具有tag前綴,則可以使用以下模式:

(?<tagName>tag\w+)\s*=\s*"(<tagValue>.*?)"

並在Select函數中提取標簽名稱和值,例如:

.Select(match=>new {
             TagName=match.Groups["tagName"].Value,
             Value=match.Groups["tagValue"].Value
});

Regex.Matches是線程安全的,這意味着您可以創建一個靜態Regex對象並重復使用它,甚至可以通過在調用SelectMany之前添加AsParallel()甚至使用PLINQ來並行匹配多行。

如果這些字符串總是那樣,您可以通過使用Substring來尋求更簡單的方法:

line.Substring(7, line.Length - 8)

這將為您提供所需的輸出。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM