使用 HtmlAgilityPack 抓取分页页面

Question

我正在使用 html agility pack 创建网络抓取工具，我有一个关于分页的问题。 我在网上搜索了一些东西来帮助我前进，但我离得不远。 我需要抓取所有分页页面的内容。 是否有任何机制可以使用 htmlagility 或任何帮助来做到这一点。 我还发现了其他应用程序，如 selenium 并正在研究它。 有没有办法我可以同时利用 selenium 和 htmlagility 来抓取？ 任何形式的帮助将不胜感激。 谢谢

Answer 1

当然，您可以将 HAP 与 Selenium 一起使用。 基本上，您可以使用 selenium 驱动程序之一导航到 URL，然后将 HTML 加载到 HAP 中，如下所示：

IWebDriver driver = new FirefoxDriver();
driver.Navigate().GoToUrl(url);
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(driver.PageSource);

完成当前页面的解析后，将驱动程序导航到下一页（找到下一页链接并执行单击操作）并再次将 HTML 传递给 HAP。 无论如何，我认为大多数 HAP 功能都可以被 Selenium 替代，因此您可能只想考虑使用 Selenium。

使用 HtmlAgilityPack 抓取分页页面

问题描述

1 个解决方案

解决方案1
1 2016-04-29 03:30:11

使用 HtmlAgilityPack 抓取分页页面

问题描述

1 个解决方案

解决方案1 1 2016-04-29 03:30:11

解决方案1
1 2016-04-29 03:30:11