[英]strip HTML and CSS in C#
我正在我的一个解决方案中创建邮件,需要提供来自给定html页面的html和纯文本邮件。
但是,我没有找到任何真正的好方法来从客户可能提供的任何html模板中删除html,js和css。
有没有任何简单的解决方案,也许是一个处理所有这一切的组件或我需要用regexp开始拼图? 甚至可以为所有可能的标签创建防弹regexp?
问候
给HtmlAgilityPack一个去吧。 它具有从HTML文档中提取文本的方法。
你基本上只需要做以下事情:
var doc = new HtmlDocument();
doc.LoadHtml(htmlStr);
var node = doc.DocumentNode;
var textContent = node.InnerText;
作为一个可以剥离html: Html Agility Pack的组件
您可能会发现Html Agility Pack对您的情况有帮助。
看一下:在InnerHTML中解析HTMLAgilityPack 。 有一个答案如何使用Html Agility Pack
在此页面中,您可以找到一种非常快速的算法,用于从字符串输入中删除HTML。 尽管HTML存在一些问题,但它仍然是一个很好的资源。 http://www.dotnetperls.com/remove-html-tags
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.