使用HTMLAgility Pack提取链接

Question

考虑这段最简单的代码：

    using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using HtmlAgilityPack;

namespace WebScraper
{
    class Program
    {
        static void Main(string[] args)
        {
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml("http://www.google.com");

            foreach (HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]"))
            {
            }
        }
    }
}

这实际上没有做任何事情，并且被复制/从各种其他StackOverflow的问题，如灵感此。 编译时会出现运行时错误，指出“对象引用未设置为对象的实例”。 突出了foreach线。

我无法理解，为什么这个简陋，无辜和无用的代码环境变得烦躁。

我还想知道，HTMLAgilityPack是否接受HTML类作为节点？

Answer 1

如果要从Web加载html，则需要使用HtmlWeb对象：

HtmlWeb web = new HtmlWeb();
HtmlDocument doc =web.Load(url);

Answer 2

LoadHtml将一串实际的HTML作为参数。 您可以从WebResponse.GetResponseStream()传递加载流。

WebRequest req = WebRequest.Create( "http://www.google.com" );
Stream s = req.GetResponse().GetResponseStream();
doc.Load(s);

使用HTMLAgility Pack提取链接

问题描述

2 个解决方案

解决方案1
4 已采纳 2010-06-05 11:40:35

解决方案2
1 2010-06-05 11:28:10

使用HTMLAgility Pack提取链接

问题描述

2 个解决方案

解决方案1 4 已采纳 2010-06-05 11:40:35

解决方案2 1 2010-06-05 11:28:10

解决方案1
4 已采纳 2010-06-05 11:40:35

解决方案2
1 2010-06-05 11:28:10