[英]Stripping text line with regular expression with c #
在下面顯示的文本中,我需要提取雙引號之間的信息(輸入是文本文件)
Tag = "571EC002A-TD"
Tag = "571GI001-RUN"
Tag = "571GI001-TD"
輸出應該是
571EC002A-TD
571GI001-RUN
571GI001-TD
如何在C#中構造正則表達式以使其匹配並將其保存到文本文件。
在將所有行讀入代碼之前,我一直很成功,但是regex給了我一些不希望的值。
謝謝,並提前感謝。
更新
對於那些問為什么不使用String.Substring的人:正則表達式相對於字符串操作的最大優點是,它們不會生成臨時字符串,直到您真正要求匹配的值為止。 匹配項和組僅包含源字符串的索引。 處理日志文件時,這是一個巨大的優勢。
您可以使用以下正則表達式來匹配標簽的內容
Tag\s*=\s*"(<tagValue>.*?)"
?
在.*?
導致非貪婪搜索,即僅提取直到第一個雙引號的文本。 否則,該模式將匹配所有內容,直到最后一個雙引號為止。
(<tagValue>.*?)
定義一個命名組。 這樣,您可以引用按名稱捕獲的實際值,甚至可以使用LINQ處理值
轉義后,生成的C#代碼可能如下所示:
var myRegex=new Regex("Tag\\s*=\\s*\"(<tagValue>.*?)\"");
...
var tags=myRegex.Matches(someText)
.OfType<Match>()
.Select(match=>match.Groups["tagValue"].Value);
結果是帶有所有標記值的IEnumerable。 您可以像其他任何IEnumerable一樣,使用ToArray()
或ToList()
將其轉換為數組或列表
使用循環的等效代碼是
var myRegex=new Regex("Tag\\s*=\\s*\"(<tagValue>.*?)\"");
...
List<string> tagValues=new List<string>();
foreach(Match m in myRegex.Matches(someText))
{
tagValues.Add(m.Groups["tagValue"].Value;
}
LINQ版本雖然可以很容易地擴展。 例如, File.ReadLines
返回IEnumerable,並且在返回之前不等待將所有內容加載到內存中。 您可以這樣寫:
var tags=File.ReadLines(myBigLog)
.SelectMany(line=>myRegex.Matches(line))
.OfType<Match>()
.Select(match=>match.Groups["tagValue"].Value);
如果標簽名稱更改,您也可以捕獲標簽名稱。 例如,如果標簽具有tag
前綴,則可以使用以下模式:
(?<tagName>tag\w+)\s*=\s*"(<tagValue>.*?)"
並在Select
函數中提取標簽名稱和值,例如:
.Select(match=>new {
TagName=match.Groups["tagName"].Value,
Value=match.Groups["tagValue"].Value
});
Regex.Matches是線程安全的,這意味着您可以創建一個靜態Regex對象並重復使用它,甚至可以通過在調用SelectMany
之前添加AsParallel()
甚至使用PLINQ來並行匹配多行。
如果這些字符串總是那樣,您可以通過使用Substring
來尋求更簡單的方法:
line.Substring(7, line.Length - 8)
這將為您提供所需的輸出。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.