簡體   English   中英

通過C#,XmlDocument.LoadXml解析網頁

[英]Parsing web pages via C#, XmlDocument.LoadXml

我正在嘗試下載網頁並對其進行解析。 我需要到達html文檔的每個節點。 因此,我使用WebClient下載,效果很好。 然后,我使用以下代碼段來解析文檔:

 WebClient client = new WebClient();

 Stream data = client.OpenRead("http://web.cs.hacettepe.edu.tr/~bil339/");
 StreamReader reader = new StreamReader(data);
 string xml = reader.ReadToEnd();

 data.Close();
 reader.Close();
 XmlDocument xmlDoc = new XmlDocument();
 xmlDoc.loadXml(xml);

在最后一行,程序等待一段時間,然后崩潰。 它說HTML代碼中有錯誤,這是不希望的,不應該在這里,等等。是否有任何建議可解決此問題? 歡迎使用其他解析HTML代碼的技術(當然,在C#中)。

使用HTMLAgilityPack解析HTML。 格式正確的HTML並非XML,因此無法進行解析。 例如,它缺少所有XML文件都需要的<?xml version="1.0" encoding="UTF-8"?>前言。 HTML Agility Pack更寬容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM