需要幫助以C＃解析HTML

Question

對於個人用途，我試圖解析一個小的html頁面，以簡單的網格顯示法國足球錦標賽的結果。

var Url = "http://www.lfp.fr/mobile/ligue1/resultat.asp?code_jr_tr=J01";
WebResponse result = null;
WebRequest req = WebRequest.Create(Url);
result = req.GetResponse();
Stream ReceiveStream = result.GetResponseStream();
Encoding encode = System.Text.Encoding.GetEncoding(0);
StreamReader sr = new StreamReader(ReceiveStream, encode);

                while (sr.Read() != -1)
                {
                    Line = sr.ReadLine();
                    Line = Regex.Replace(Line, @"<(.|\n)*?>", " ");
                    Line = Line.Replace("&nbsp;", "");
                    Line = Line.TrimEnd();
                    Line = Line.TrimStart();

然后我真的不知道一個線索，要么是逐行，要么是整個流，以及如何只取回球隊的名字和下一個將要得分的數字。

最后，我想將帶分數的兩個團隊都放在一個liste或xml中，以將其與電話應用程序一起使用

如果有人有想法，將非常感謝！

Answer 1

看看HTML敏捷包

Answer 2

您可以將流放入XmlDocument中，從而允許通過XPath之類的查詢。 或者，您可以將LINQ to XML與XDocument一起使用。

不過，它並不完美，因為HTML文件並不總是格式正確的XML（我們不知道！），但這是使用框架中已有內容的簡單解決方案。

Answer 3

您將需要一個SgmlReader ，它可以在任何SGML文檔（實際上是HTML文檔）上提供類似XML的API。

Answer 4

您可以使用Regex.Match方法提取球隊名稱和得分。 檢查html以查看每一行是如何建立的。 這是屏幕抓取中的常用技術。

需要幫助以C＃解析HTML

問題描述

4 個解決方案

解決方案1
7 已采納 2009-09-30 14:09:25

解決方案2
1 2009-09-30 14:08:52

解決方案3
0 2009-09-30 14:10:23

解決方案4
0 2009-09-30 14:42:50

需要幫助以C＃解析HTML

問題描述

4 個解決方案

解決方案1 7 已采納 2009-09-30 14:09:25

解決方案2 1 2009-09-30 14:08:52

解決方案3 0 2009-09-30 14:10:23

解決方案4 0 2009-09-30 14:42:50

解決方案1
7 已采納 2009-09-30 14:09:25

解決方案2
1 2009-09-30 14:08:52

解決方案3
0 2009-09-30 14:10:23

解決方案4
0 2009-09-30 14:42:50