繁体   English   中英

解析任何原始HTML的内置方法

[英]Built-in way to parse any raw HTML

我开始编写一个应从任何指定的HTML页面检索元标记内容的应用程序。 当我为此使用.NET 2.0时,就不能使用LINQ to XML或其他现代的东西。 因此,我尝试使用XmlDocument类。 不幸的是,它不能与大多数HTML一样的无效XML文档一起使用。

我什至不能使用HtmlAgilityPack,因为我正在编写将来打算出售的应用程序,因此它可能不符合商业需求。

使用XmlReader似乎太难了。

那么,你们将如何处理此问题?


发布编辑

我最好避免使用HtmlAgilityPack的另一个原因是,添加到我的项目中的库是如此之大。 我会更乐意将项目保持尽可能的小。

你们真的建议我以任何方式使用HtmlAgilityPack吗?

我什至不能使用HtmlAgilityPack,因为我正在编写将来打算出售的应用程序,因此它可能不符合商业需求。

HtmlAgilityPack使用的是Microsoft公共许可证(Ms-PL),它将使您可以在商业产品中使用它,它非常自由-请参阅“ MS-PL许可证如何工作?” Microsoft公共许可证(Ms-PL)

HtmlDocument doc = new System.Windows.Forms.WebBrowser().Document.OpenNew(true);
doc.Write("<HTML><BODY>This is a new HTML document.</BODY></HTML>");

参见MSDN

请注意,这是一个WebForms控件,在WebForms应用程序中运行它可能会遇到不同的问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM