繁体   English   中英

使用 HtmlAgilityPack 抓取分页页面

[英]Web scraping paginated page using HtmlAgilityPack

我正在使用 html agility pack 创建网络抓取工具,我有一个关于分页的问题。 我在网上搜索了一些东西来帮助我前进,但我离得不远。 我需要抓取所有分页页面的内容。 是否有任何机制可以使用 htmlagility 或任何帮助来做到这一点。 我还发现了其他应用程序,如 selenium 并正在研究它。 有没有办法我可以同时利用 selenium 和 htmlagility 来抓取? 任何形式的帮助将不胜感激。 谢谢

当然,您可以将 HAP 与 Selenium 一起使用。 基本上,您可以使用 selenium 驱动程序之一导航到 URL,然后将 HTML 加载到 HAP 中,如下所示:

IWebDriver driver = new FirefoxDriver();
driver.Navigate().GoToUrl(url);
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(driver.PageSource);

完成当前页面的解析后,将驱动程序导航到下一页(找到下一页链接并执行单击操作)并再次将 HTML 传递给 HAP。 无论如何,我认为大多数 HAP 功能都可以被 Selenium 替代,因此您可能只想考虑使用 Selenium。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM