繁体   English   中英

C#只提取html

[英]C# extracting html only

基本上我有一个嵌入了CSS和JavaScript的网页,所以我想要做的只是提取HTML本身,从文本到表格,图像和什么不是。

到目前为止,我将整个网页存储到一个名为“html”的字符串中,例如,这个页面的内容只是facebook hompepage,但正如您将看到的那样,我不想拥有所有脚本和其他嵌入的东西。

   HTMLEdit = //webpage I chose to store in here//
   string html = HTMLEdit.DocumentText;
   String result = "this i want to only contain the <head>,<body>,<foot>."

我只对显示结果只对包含html,我不想要JavaScript或CSS或任何其他东西感兴趣

我看过敏捷包,但是那里没有关于这个网站的文档来做这个,这是我决定做的第一个c#项目,所以请原谅我的无知,如果我没有意义的话。

请参阅此问题HTML Agility Pack strip标签NOT IN白名单

也许适应那个答案,并删除链接和脚本标签。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM