簡體   English   中英

如何抓取動態網站-使用python scrapy?

[英]How to scrape dynamic website - using python scrapy?

我可以使用scrapy抓取靜態網站,但是,我嘗試抓取的另一個網站的HTML中有2個部分; “頭”和“身體負荷”。 而我需要的信息在正文加載部分中。 我認為在請求html之后加載內容,因此網站是動態的。 使用scrapy可以做到嗎? 我還需要哪些其他工具?

看看scrapy_splash ,它是scrapy的呈現服務,它使您可以爬網基於javascript的網站。

您還可以創建自己的下載器中間件,並將SeleniumPhantomJS結合使用示例 )。 該技術的缺點是您失去了scrapy提供的並發性。

無論如何,我認為飛濺是實現此目的的最佳方法。

希望這可以幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM