簡體   English   中英

在scrapy中刮掉disqus評論計數的最佳方法是什么?

[英]What's the best way to scrape disqus comment count in scrapy?

我剛剛開始使用scrapy,並且對這種情況的最佳實踐感興趣。 Scrapy 旨在使用 CSS 或 XPath 選擇頁面上的元素。 Disqus 評論似乎在 iFrame 中加載,使其更難抓取。 我知道他們有一個 API,但是有沒有辦法使用 xpath/css 或其他一些簡單的選擇器來抓取它們?

這是一個示例帖子: http ://www.ibtimes.com/who-aaron-ybarra-suspected-seattle-pacific-university-shooter-obsessed-columbine-1595326

我嘗試只使用 Disqus 評論計數的 xpath,但這似乎不起作用。

In [36]: sel.xpath('//*[@id="main-nav"]/nav/ul/li[1]/a/span[1]').extract()
Out[36]: []

有沒有其他方法可以得到計數? 這里最好的策略是什么?

Disqus 位於第三方網站的 iframe 對象中。 通過訪問 iframe 中的“src”,您可以點擊鏈接,然后正常進行。

您將需要使用無頭瀏覽器。 嘗試導入諸如scrapy-selenium類的模塊

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM