標簽[scrapy-splash] - 堆棧內存溢出

我如何使用 scrapy 和 splash python 執行 webscrapyn

[英]How can I perform webscrapyn with scrapy and splash python

我正在嘗試在超市網站上執行抓取，但我無法獲得用於搜索其 class 的 object。我正在使用帶有 splash 的 scrapy，因為該網站有 javascript 我正在使用這段代碼但我收到以下錯誤獲取在 ais-SearchBox-input class 中找到的元素的正確方法是什么？ ...

Splash-scrapy 無法呈現特定的 JavaScript web

[英]Splash-scrapy unable to render particular JavaScript web

我正在嘗試使用 Scrapy 框架來抓取https://www.sreality.cz/en/search/for-sale/apartments網站。 Web 的部分代碼是用JavaScript編寫的，因此我嘗試使用 Splash Docker 容器為我提供html ，我可以輕松解析它。我下 ...

scrapy splash 獲取部分數據

[英]scrapy splash gets part of data

運行刮刀時出現此錯誤：我試圖理解它是什么意思，但我找不到問題所在。該鏈接工作正常...但未收集數據... 我的腳本如下所示：劇本有什么問題？還是與設置有關？ . 我認為這與我加入價格的方式有關，但是從 770 種產品來看，它適用於近 660 種...我不明白...感謝您的幫助！ ...

蜘蛛只是爬行而不是刮為什么？

[英]Spider is just crawling but not scraping why?

我正在嘗試抓取這個網站 https://www.ebay.com/sch/i.html?_dmd=2&_dkr=1&iconV2Request=true&_ssn=a2z_prime_auto_parts&store_name=1&_pgnautoparts ...

無法在雲上部署 scrapy 蜘蛛（zyte）：AttributeError：'ScrapyArgumentParser' object 沒有屬性'add_option'

[英]cannot deploy scrapy spider on the cloud(zyte) : AttributeError: 'ScrapyArgumentParser' object has no attribute 'add_option'

我正在嘗試部署我制作的蜘蛛爬蟲，代碼在我的計算機上運行良好，當我嘗試將其部署到https://app.zyte.com/時，為了在雲上運行它我得到了這個錯誤： ...

請求因 504 失敗：在 docker 中使用 scrapy-splash 時網關超時

[英]Requests fail with 504: Gateway Time-out when using scrapy-splash in docker compose with zyte

賞金將在 4 天后到期。此問題的答案有資格獲得+250聲望賞金。 Odif Yltsaeb正在從有信譽的來源尋找答案。我正在嘗試抓取一個使用 JS 部分呈現內容的站點。我繼續找到了這個項目： https://github.com/scrapinghub/sample-projects/tr ...

如何根據給定條件發送 scrapy 請求

[英]How to send scrapy request based on a given condition

如果 URL 包含分頁，我想向 URL 發送 Scrapy 請求，否則我想從先前的請求返回先前的響應。我嘗試在下面的代碼中實現它，但我沒有得到想要的結果。例如，帶和不帶分頁的 url 看起來像這樣。 https://www.oddsportal.com/soccer/africa/africa ...

Scrapy如何減慢數據請求

[英]Scrapy how to slow down data request

當我想獲得更少的數據時沒有問題，但是當我想獲得更多的數據時，我遇到了錯誤 429。我查看了 scrapy 文檔，但沒有幫助。我認為問題是速度。因為在 6 秒內響應計數為 210，我不知道如何減慢它。順便說一句，我試過DOWNLOAD_DELAY = [1]但也沒有用。這是代碼：謝謝你 ...

如何通過代理從 Splash 發送請求？

[英]How to send a request from Splash via proxy?

我正在嘗試使用這樣的腳本向頁面發出 SplashRequest：頁面返回沒有錯誤，但是指定了我的真實ip，我的錯誤在哪里？ ...

如果按鈕的 href 是 javascript:void(0)，我如何使用 Scrapy 和 Splash 處理分頁

[英]How can I handle pagination with Scrapy and Splash, if the href of the button is javascript:void(0)

我試圖從這個網站上抓取大學的名稱和鏈接： https ://www.topuniversities.com/university-rankings/world-university-rankings/2021，在處理分頁時遇到了問題，作為href指向下一頁的按鈕是javascript：void（0） ...

Scraper 沒有獲取全部數據

[英]Scraper not getting total data

我有一個 .py scraper，當它運行時，工作正常但沒有獲得 100% 的數據。我收到很多這樣的錯誤：這是我的腳本：我不明白錯誤是什么...為什么有時我得到 100% 的信息而有時我得到這些消息？它與腳本有關，user_agent，關於進程運行的那一刻？提前致謝！ ...

Css 選擇器返回空白列表

[英]Css selector returns blank list

嗨，我是 scrapy 和 web 的新手，我很難從這個網站上抓取： https://www.webuycars.co.za/buy-a-car 我的目標是從頁面上抓取汽車數據，如名稱、價格等我開始於然后我做了我正在使用帶有 scrapy 的 splash 因為我得出的結論是該頁面是使用 jav ...

飛濺：mouse_click 無法打開彈出窗口 window

[英]splash:mouse_click couldn't open pop up window

我正在嘗試從城鎮工作（日本工作信息網站）中抓取兼職工作信息。要獲取地址，我想打開一個彈出窗口 window。然后我開始使用Splash 。雖然我可以使用splash:mouse_click打開其他鏈接和彈出窗口，但我無法打開所需的彈出窗口 window。任何答案將不勝感激。我想點擊的鏈接 ...

Scrapy-Splash：無法使用 lua 腳本單擊按鈕

[英]Scrapy-Splash: Cannot click buttons with lua script

我正在從 grammy.com 抓取數據，我想擴展包含與格萊美獎相關的信息的選項卡（下圖）。我寫了一個 lua 腳本到 go 並單擊所有按鈕，但我收到的 html 似乎沒有任何變化。這是示例頁面，lua腳本如下：任何幫助深表感謝。先感謝您。 ...

如何使用scrapy與爬蟲模板和scrapy-splash解析javascript

[英]how to use scrapy with the crawler template and scrapy-splash to parse javascript

我正在嘗試使用帶有爬網模板的 scrapy 來抓取亞馬遜的產品，但我發現亞馬遜使用一些 javascript 來獲取一些產品詳細信息塊，所以我決定使用 splash 來呈現 javascript，它在 shell 命令中工作正常，但是我不知道如何在我的代碼中實現它。 ...

Python，飛濺 select XPATH 然后點擊按鈕

[英]Python, Splash select XPATH and click button

我想使用 Python 和 Splash 到 select 帶有 XPATH 的“Ich stimme zu”按鈕，然后單擊。我不能使用 CSS class 因為它有一個動態名稱。 URL: https://consent.google.com/m?continue=https://www.go ...

Scrapy 飛濺錯誤：放棄重試 504 網關超時

[英]Scrapy Splash ERROR: Gave up retrying 504 Gateway Time-out

我在使用 scrapy 啟動時收到此 504 網關錯誤，同時在我嘗試抓取此https://www.lazada.com.my/的地方學習啟動請問你能幫幫我嗎？ Splash 在端口 8050 上的 docker 容器上運行蜘蛛文件import scrapy from scrapy_splash i ...

"Splash 不會渲染 javascript 創建的元素"

[英]Splash does not render the elements created by javascript

我知道有幾個帖子問同樣的問題。我都試過了，但是在幾個不眠之夜之后，我不得不問這個問題，如果有人能幫助我解決這個問題，我將非常感激。因此，我正在嘗試使用 Python 從 yelp 餐廳頁面獲取評論。評論是使用 javascript 動態生成的。我用scrapy、requests-html、 ...

使用滾動抓取動態亞馬遜頁面

[英]Scraping dynamic amazon page with scrolling

我正在嘗試為特定類別的亞馬遜暢銷書 100 抓取產品。例如 - https://www.amazon.com/Best-Sellers-Home-Kitchen/zgbs/home-garden/ref=zg_bs_nav_0 100 個產品分為兩頁，每頁 50 個產品。早些時候，該頁面是 ...

在 Scrapy 框架中發送一個帖子請求，該框架不工作，但它在 python 請求中工作，顯示 403 錯誤

[英]Sending a post request in Scrapy framework which is not working but it work in python request showing 403 error

我在 POST API 中遇到了與 scrapy 框架相關的問題。我是通過 python 請求完成的，但我不明白 scrapy 框架的問題。 Url of the website:- https://www.makemytrip.com/hotels/hotel-listing/?checkin ...