[英]Parsing web pages via C#, XmlDocument.LoadXml
我正在嘗試下載網頁並對其進行解析。 我需要到達html文檔的每個節點。 因此,我使用WebClient下載,效果很好。 然后,我使用以下代碼段來解析文檔:
WebClient client = new WebClient();
Stream data = client.OpenRead("http://web.cs.hacettepe.edu.tr/~bil339/");
StreamReader reader = new StreamReader(data);
string xml = reader.ReadToEnd();
data.Close();
reader.Close();
XmlDocument xmlDoc = new XmlDocument();
xmlDoc.loadXml(xml);
在最后一行,程序等待一段時間,然后崩潰。 它說HTML代碼中有錯誤,這是不希望的,不應該在這里,等等。是否有任何建議可解決此問題? 歡迎使用其他解析HTML代碼的技術(當然,在C#中)。
使用HTMLAgilityPack解析HTML。 格式正確的HTML並非XML,因此無法進行解析。 例如,它缺少所有XML文件都需要的<?xml version="1.0" encoding="UTF-8"?>
前言。 HTML Agility Pack更寬容。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.