簡體   English   中英

使用正則表達式從HTML代碼提取文本

[英]Text extraction from html code using regex

 <time datetime="2014-10-18T19:30:00-0600">Saturday 18 October 2014</time> 

我需要提取日期“ 2014年10月18日星期六”。 我知道我應該使用類似的東西:

MatchCollection m1 = Regex.Matches(downloadBandData, @"<time daytime=""\s*(.+?)\s*</time>", RegexOptions.Singleline);

但是,我不知道我應該使用的確切表達。

對於將來的HTML解析,建議使用除regex之外的其他工具。 但是,您可以使用以下方法。

Match m = Regex.Match(downloadBandData, @"<time[^>]*>([^<]+)</time>");
if (m.Success)
    Console.WriteLine(m.Groups[1].Value); //=> "Saturday 18 October 2014"

正則表達式不匹配的原因是,您嘗試匹配daytime而不是“ datetime”,並且不匹配雙引號" ... "或右括號>之間的內容。

正則表達式的正確表示應如下所示:

@"<time datetime=""[^""]*"">\s*(.+?)\s*</time>"

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM