繁体   English   中英

在scrapy中刮掉disqus评论计数的最佳方法是什么?

[英]What's the best way to scrape disqus comment count in scrapy?

我刚刚开始使用scrapy,并且对这种情况的最佳实践感兴趣。 Scrapy 旨在使用 CSS 或 XPath 选择页面上的元素。 Disqus 评论似乎在 iFrame 中加载,使其更难抓取。 我知道他们有一个 API,但是有没有办法使用 xpath/css 或其他一些简单的选择器来抓取它们?

这是一个示例帖子: http ://www.ibtimes.com/who-aaron-ybarra-suspected-seattle-pacific-university-shooter-obsessed-columbine-1595326

我尝试只使用 Disqus 评论计数的 xpath,但这似乎不起作用。

In [36]: sel.xpath('//*[@id="main-nav"]/nav/ul/li[1]/a/span[1]').extract()
Out[36]: []

有没有其他方法可以得到计数? 这里最好的策略是什么?

Disqus 位于第三方网站的 iframe 对象中。 通过访问 iframe 中的“src”,您可以点击链接,然后正常进行。

您将需要使用无头浏览器。 尝试导入诸如scrapy-selenium类的模块

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM