标签[scrapy-selenium] - 堆栈内存溢出

抓取电子商务网站 daraz.pk 时出错 - Error in scraping an ecommerce website daraz.pk

我正在尝试抓取 daraz.pk 并遇到此错误。蜘蛛抓取页面上的所有值，直到最后一个值，因为它返回 None 值，然后蜘蛛抛出 NoneType object is not iterable。我尝试过使用异常处理方法，但无论如何都没有工作，如果有人可以帮忙，我在这里分享我的代码。我正在使用 sel ...

用_init_函数编写的硒脚本未执行 - selenium script written in _init_ function not executing

我正在尝试将 selenium 与 scrapy 集成以从网站呈现 javascript。我已将 selenium 自动化代码放入构造函数中，它执行按钮单击，然后解析函数从页面中抓取数据。但是终端窗口中出现了以下错误。代码：似乎编译器在进入 parse 函数之前没有执行init函数，因 ...

如何从新标签打开中抓取数据 - How to crawl data from the new tab opening

我正在尝试通过 scrapy-selenium 抓取此网页https://www.goo-net.com/php/search/summary.php的产品详细信息。因为我要爬取每个产品的详细信息，所以我从页面爬取了产品的所有url。然后我使用回调方法将其解析为另一个 def 以抓取该 url ...

Scrapy Selenium：为什么分页不适用于 scrapy-selenium？ - Scrapy Selenium: Why pagination is not working for scrapy-selenium?

我正在尝试使用 scrapy-selenium 获取数据，但分页存在一些问题。我已尽我所能使用不同的选择器和方法，但没有任何改变。它只能抓取第一页。我也检查了其他解决方案，但仍然无法使其工作。期待专家指教。资料来源： https://www.gumtree.com/property-fo ...

蜘蛛关闭时没有错误消息并且不会刮掉分页中的所有页面（SELENIUM） - Spider closes without error messages and does not scrape all the pages in the pagination (SELENIUM)

我创建了一个管道将所有报废的数据放入 sqlite 数据库，但我的蜘蛛没有完成分页。这是蜘蛛关闭时我得到的。我应该得到大约 45k 的结果，而我只得到 420。为什么会这样？这是我的蜘蛛：这是否与我的 user_agent 明确相关，我已经将其分配给 settings.py 还是我被禁止访 ...

Scrapy / 使用 Scrapy Selenium 作为第一个请求页面？ - Scrapy / Use Scrapy Selenium for the first request-page?

我有一个使用scrapy_selenium 的正在运行的解决方案，用于带有javascript 加载的站点。正如您在下面的代码中看到的那样，在使用 parseDetails 生成 detailPage 时使用了 SeleniumRequest - 但是，当我需要在我的主页上准备好 Seleniu ...

抓取 0 页，抓取 0 个项目错误/网页抓取/硒 - Crawled 0 pages, scraped 0 items ERROR / webscraping / SELENIUM

所以我尝试了几件事来理解为什么我的蜘蛛失败了，但没有成功。我已经被困了好几天了，不能再拖延下去了。我只想抓取第一页，此时不做分页。我非常感谢您的帮助:(这是我的代码：这是我的 settings.py 文件：这是我执行时在终端中得到的： ...

如何从需要使用scrapy-selenium单击的选项卡抓取页面 - How to crawl Page with from a tab that needs to be clicked with scrapy-selenium

所以我想从这个站点抓取数据，尤其是从公司详细信息部分：要抓取的网站我从一个人那里得到了一些帮助，让它与 python 剧作家一起工作，但我需要用 python scrapy-selenium 来完成。我想将这里的答案中的代码重写为scrapy-selenium方式。原始问题我尝试 ...

如何通过scrapy python从动态（？）创建的表中正确抓取数据 - How to scrape data via scrapy python correctly from a dynamically(?) created table

我目前正在尝试从 alibaba.com 抓取公司概览。例如： https : //www.alibaba.com/product-detail/T14-series-original-air-pro-TWS_1600273931389.html?spm=a2700.galleryofferli ...

Scrapy-Selenium 分页 - Scrapy-Selenium Pagination

谁能帮我？我正在练习，我无法理解我在分页上做错了什么！它只返回第一页给我，有时会出现错误。当它工作时，它只返回第一页。 “内容安全策略指令‘frame-src’的源列表包含无效的源‘*trackcmp.net’它将被忽略”，来源： https ://naturaldaterra.com.b ...

带有javascript下一页的Scrapy和Selenium不起作用 - Scrapy and Selenium with javascript next page isn't working

我将抓取下一页的所有职位名称，但它只抓取第一页。该 url 仅包含四页，每页包含 25 个项目，但我从未到达下一页。任何人的帮助表示赞赏。 https://epco.taleo.net/careersection/alljobs/jobsearch.ftl ...

如何使用scrapy-selenium加载更多/显示更多分页 - How to Load more/show more pagination with scrapy-selenium

得到回应但什么也没刮！ ...

抓取后保持浏览器 window 打开？ - Keep browser window open after scraping?

使用scrapy-selenium时，如何在抓取完成（或中止）后保持浏览器 window 打开？ ...