繁体 English 中英

通过C＃，XmlDocument.LoadXml解析网页

[英]Parsing web pages via C#, XmlDocument.LoadXml

原文 2011-12-16 18:57:30 2 1 c#/ parsing/ web/ xmldocument

我正在尝试下载网页并对其进行解析。 我需要到达html文档的每个节点。 因此，我使用WebClient下载，效果很好。 然后，我使用以下代码段来解析文档：

 WebClient client = new WebClient();

 Stream data = client.OpenRead("http://web.cs.hacettepe.edu.tr/~bil339/");
 StreamReader reader = new StreamReader(data);
 string xml = reader.ReadToEnd();

 data.Close();
 reader.Close();
 XmlDocument xmlDoc = new XmlDocument();
 xmlDoc.loadXml(xml);

在最后一行，程序等待一段时间，然后崩溃。 它说HTML代码中有错误，这是不希望的，不应该在这里，等等。是否有任何建议可解决此问题？ 欢迎使用其他解析HTML代码的技术（当然，在C＃中）。

1 个解决方案

使用HTMLAgilityPack解析HTML。 格式正确的HTML并非XML，因此无法进行解析。 例如，它缺少所有XML文件都需要的<?xml version="1.0" encoding="UTF-8"?>前言。 HTML Agility Pack更宽容。

C＃XmlDocument.LoadXml和通配符

[英]C# XmlDocument.LoadXml And Wildcards

C＃XmlDocument.LoadXml（string）失败-根级别的数据无效。第1行的位置1。

[英]C# XmlDocument.LoadXml(string) fail -data at the root level is invalid. line 1 position 1. xmldocument

为什么包含XML头时C＃XmlDocument.LoadXml（字符串）会失败？

[英]Why does C# XmlDocument.LoadXml(string) fail when an XML header is included?

XmlDocument.Load Vs XmlDocument.LoadXml

[英]XmlDocument.Load Vs XmlDocument.LoadXml

XmlDocument.LoadXml（）和XML声明编码属性

[英]XmlDocument.LoadXml() and XML declaration encoding attribute

为什么`XmlDocument.LoadXml（）`无法与名称空间一起使用？

[英]Why does `XmlDocument.LoadXml()` not work with namespace?

是否有来自.NET的XmlDocument.LoadXml（）的Java等价物？

[英]Is there a Java equivalent for XmlDocument.LoadXml() from .NET?

XmlDocument.LoadXML名称不能以“ <”字符开头

[英]XmlDocument.LoadXML Name cannot begin with the '<' character

XmlDocument.LoadXml（）抛出ComException类型的异常

[英]XmlDocument.LoadXml() throws an exception of type ComException

不使用XmlDocument.Loadxml（）函数将XML反序列化为JSON

[英]Deserializing XML into JSON without using XmlDocument.Loadxml() function

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 C＃XmlDocument.LoadXml和通配符 C＃XmlDocument.LoadXml（string）失败-根级别的数据无效。第1行的位置1。为什么包含XML头时C＃XmlDocument.LoadXml（字符串）会失败？ XmlDocument.Load Vs XmlDocument.LoadXml XmlDocument.LoadXml（）和XML声明编码属性为什么`XmlDocument.LoadXml（）`无法与名称空间一起使用？是否有来自.NET的XmlDocument.LoadXml（）的Java等价物？ XmlDocument.LoadXML名称不能以“ <”字符开头 XmlDocument.LoadXml（）抛出ComException类型的异常不使用XmlDocument.Loadxml（）函数将XML反序列化为JSON

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM