标签[zyte] - 堆栈内存溢出

通过代理发送请求。请求图书馆作品，axios 没有 - sending request through proxy. request library works, axios does not

赏金将在 3 天后到期。此问题的答案有资格获得+250声望赏金。 Rilcon42想让更多人关注这个问题。我正在尝试更新一些旧代码以摆脱请求 package，因为它不再被维护。我试图用 axios 替换代理请求，但它不起作用（我只是超时）。我在某处缺少 axios 配置吗？使用请求 p ...

请求因 504 失败：在 docker 中使用 scrapy-splash 时网关超时 - Requests fail with 504: Gateway Time-out when using scrapy-splash in docker compose with zyte

赏金将在 4 天后到期。此问题的答案有资格获得+250声望赏金。 Odif Yltsaeb正在从有信誉的来源寻找答案。我正在尝试抓取一个使用 JS 部分呈现内容的站点。我继续找到了这个项目： https://github.com/scrapinghub/sample-projects/tr ...

在我的爬虫程序中获取 JOB_ID - Zyte cloud - Get JOB_ID in my spider program - Zyte cloud

我让我的蜘蛛在 zyte 云中运行。对于每次执行，zyte cloud 为进程分配一个 JOB_ID。如何在我的蜘蛛程序中获取这些数据？ ...

为什么 Puppeteer page.click 不等待（可能是无浏览器？） - Why isn't Puppeteer page.click waiting (maybe Browserless?)

目标：我有一个页面，我需要在第一次单击页面上的某些内容后从中获取 html。问题：返回的 html 不等待该元素单击。这是我尝试过的一种方法。 await page.setViewport({width: 1400, height: 800}); await page.waitForSele ...

如何在 Scrapy/Zyte 中将新的蜘蛛参数添加到我自己的模板中 - How can I add a new spider arg to my own template in Scrapy/Zyte

我正在研究一个付费代理蜘蛛模板，并希望能够在命令行上为 Scrapy 爬虫传递一个新参数。我怎样才能做到这一点？ ...

当 python 核心 package 在 scrapinghub 中安装 csv 时，为什么会出错 - Why error with installing csv when its part of python core package in scrapinghub

我定义了 3 只蜘蛛。所有相关要求都在 requirements.txt 中提到此外，scrapinghub.yml 定义为使用 scrapy 2.5 我在尝试部署时不断收到此错误：还有 Setup.py 项目 ID 被屏蔽你能帮我理解为什么以下软件包需要通过抓取集线器安装，而这些似乎是核心 ...

Scrapinghub scrapy：ModuleNotFoundError：没有名为“pandas”的模块 - Scrapinghub scrapy: ModuleNotFoundError: No module named 'pandas'

我尝试通过命令行和 GitHub 部署到 Zyte，但我一直遇到上述错误。我尝试了不同版本的 Scrapy 版本 1.5 到 2.5，但错误仍然存在。我还尝试将我的 Scrapinghub.yml 设置为以下脚本，但它似乎无法解决错误 ...