解析任何原始HTML的内置方法

Question

我开始编写一个应从任何指定的HTML页面检索元标记内容的应用程序。 当我为此使用.NET 2.0时，就不能使用LINQ to XML或其他现代的东西。 因此，我尝试使用XmlDocument类。 不幸的是，它不能与大多数HTML一样的无效XML文档一起使用。

我什至不能使用HtmlAgilityPack，因为我正在编写将来打算出售的应用程序，因此它可能不符合商业需求。

使用XmlReader似乎太难了。

那么，你们将如何处理此问题？

发布编辑

我最好避免使用HtmlAgilityPack的另一个原因是，添加到我的项目中的库是如此之大。 我会更乐意将项目保持尽可能的小。

你们真的建议我以任何方式使用HtmlAgilityPack吗？

Answer 1

我什至不能使用HtmlAgilityPack，因为我正在编写将来打算出售的应用程序，因此它可能不符合商业需求。

HtmlAgilityPack使用的是Microsoft公共许可证（Ms-PL），它将使您可以在商业产品中使用它，它非常自由-请参阅“ MS-PL许可证如何工作？” 和Microsoft公共许可证（Ms-PL）

Answer 2

HtmlDocument doc = new System.Windows.Forms.WebBrowser().Document.OpenNew(true);
doc.Write("<HTML><BODY>This is a new HTML document.</BODY></HTML>");

参见MSDN 。

请注意，这是一个WebForms控件，在WebForms应用程序中运行它可能会遇到不同的问题。