[英]Remove HTML from string — comments
我有以下文本仍然包含一些HTML代碼:
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
Hi There,
For the product team to have any chance in analysing this issue we need clarification on how to reproduce the problem.
我的代碼目前是:
string replacedEmailText = Regex.Replace(emailText, @"<(.|\n)*?>", string.Empty);
string finalText = WebUtility.HtmlDecode(replacedEmailText);
如何刪除包含以下內容的頂行:
v\:* {behavior:url(#default#VML);}
?
對於此特定示例,您可以使用.*;}(\\r\\n|\\r|\\n)*
作為替換模式。
但是,當文本包含序列時,這將失敗;}
。 如果可以,您可能希望進一步詳細了解html行的外觀:
.*\\(#default#VML\\);}(\\r\\n|\\r|\\n)*
說明:
.*
:匹配任何字符,除了新行和回車零連續多次 \\(#default#VML\\);}
:匹配序列(#default#VML) (\\r\\n|\\r|\\n)*
:刪除新行和回車連續零次或多次 在這里演示
不要嘗試使用正則表達式從文本中刪除HTML,使用一些白名單庫,如https://github.com/mganss/HtmlSanitizer
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.