需要帮助以C＃解析HTML

Question

对于个人用途，我试图解析一个小的html页面，以简单的网格显示法国足球锦标赛的结果。

var Url = "http://www.lfp.fr/mobile/ligue1/resultat.asp?code_jr_tr=J01";
WebResponse result = null;
WebRequest req = WebRequest.Create(Url);
result = req.GetResponse();
Stream ReceiveStream = result.GetResponseStream();
Encoding encode = System.Text.Encoding.GetEncoding(0);
StreamReader sr = new StreamReader(ReceiveStream, encode);

                while (sr.Read() != -1)
                {
                    Line = sr.ReadLine();
                    Line = Regex.Replace(Line, @"<(.|\n)*?>", " ");
                    Line = Line.Replace("&nbsp;", "");
                    Line = Line.TrimEnd();
                    Line = Line.TrimStart();

然后我真的不知道一个线索，要么是逐行，要么是整个流，以及如何只取回球队的名字和下一个将要得分的数字。

最后，我想将带分数的两个团队都放在一个liste或xml中，以将其与电话应用程序一起使用

如果有人有想法，将非常感谢！

Answer 1

看看HTML敏捷包

Answer 2

您可以将流放入XmlDocument中，从而允许通过XPath之类的查询。 或者，您可以将LINQ to XML与XDocument一起使用。

不过，它并不完美，因为HTML文件并不总是格式正确的XML（我们不知道！），但这是使用框架中已有内容的简单解决方案。

Answer 3

您将需要一个SgmlReader ，它可以在任何SGML文档（实际上是HTML文档）上提供类似XML的API。

Answer 4

您可以使用Regex.Match方法提取球队名称和得分。 检查html以查看每一行是如何建立的。 这是屏幕抓取中的常用技术。

需要帮助以C＃解析HTML

问题描述

4 个解决方案

解决方案1
7 已采纳 2009-09-30 14:09:25

解决方案2
1 2009-09-30 14:08:52

解决方案3
0 2009-09-30 14:10:23

解决方案4
0 2009-09-30 14:42:50

需要帮助以C＃解析HTML

问题描述

4 个解决方案

解决方案1 7 已采纳 2009-09-30 14:09:25

解决方案2 1 2009-09-30 14:08:52

解决方案3 0 2009-09-30 14:10:23

解决方案4 0 2009-09-30 14:42:50

解决方案1
7 已采纳 2009-09-30 14:09:25

解决方案2
1 2009-09-30 14:08:52

解决方案3
0 2009-09-30 14:10:23

解决方案4
0 2009-09-30 14:42:50