繁体   English   中英

在C#中剥离HTML和CSS

[英]strip HTML and CSS in C#

我正在我的一个解决方案中创建邮件,需要提供来自给定html页面的html和纯文本邮件。

但是,我没有找到任何真正的好方法来从客户可能提供的任何html模板中删除html,js和css。

有没有任何简单的解决方案,也许是一个处理所有这一切的组件或我需要用regexp开始拼图? 甚至可以为所有可能的标签创建防弹regexp?

问候

HtmlAgilityPack一个去吧。 它具有从HTML文档中提取文本的方法。

你基本上只需要做以下事情:

  var doc = new HtmlDocument();
  doc.LoadHtml(htmlStr);
  var node = doc.DocumentNode;
  var textContent = node.InnerText;

作为一个可以剥离html: Html Agility Pack的组件

您可能会发现Html Agility Pack对您的情况有帮助。

看一下:在InnerHTML中解析HTMLAgilityPack 有一个答案如何使用Html Agility Pack

在此页面中,您可以找到一种非常快速的算法,用于从字符串输入中删除HTML。 尽管HTML存在一些问题,但它仍然是一个很好的资源。 http://www.dotnetperls.com/remove-html-tags

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM