cost 83 ms
是否需要对爬虫进行测试?

[英]Testing for crawler is necessary or not?

爬虫工具有必要测试吗? 以何种方式? 我公司正在使用爬虫工具(通过API和GUI)为客户收集数据。 问题是有时目标网站的 GUI 有一些变化,导致爬虫出错或数据丢失。 现在老板想要确保每次发生变化时,他们都会立即知道(当然是通过 DevOps/CICD)。 但是,我不确定应该使用哪种方法进行测试。 ...

发送密钥 selenium(蟒蛇)

[英]Sendkeys selenium (python)

我正在使用 selenium 和 python 抓取一个网站。这个网站有一个搜索引擎,可以让你写。 当我包含文本时,在按下回车键之前,我需要等待一段时间,否则它会进行搜索。 我想知道是否有办法包含 fluentwait 而不是使用 time.sleep time.sleep() ...

如何在不物理滚动的情况下获取 scrap web 整个页面数据?

[英]How to get scrap web entire page data without physically scrolling?

我正在使用以下代码提取该网页的信息,但它只提取前 18 行信息。 我怎样才能确保我正在加载 2063 行信息。 我已经尝试了以下 4 段代码来滚动浏览网页,但它们都不起作用(我不确定是否需要这一步): 方法一: 方法二: 方法三: 方法四: ...

爬取价格给出null,HtmlAgilityPack(C#)

[英]crawling price gives null , HtmlAgilityPack (C#)

我试图从一个带有 webcrawler 的网站获取股票数据作为一个业余项目。 我得到了工作链接,我得到了股票名称,但我无法得到价格...我不知道如何处理 html 代码。 这是我的代码, 我得到了正确的名称,但我真的不知道如何获得 ChangeInPercent ....我将在下面的 html 代 ...

一个域的多个 CMS,具有不同的 URL 结构

[英]Multiple CMS for one domain and with different URL structures

我来到了一个由两个 CMS 构建的站点:一部分是 magento(产品),另一部分是 WP(仅博客部分) Magento 的 URL 没有斜杠,只有博客文章的 WP URL 有斜杠。 请注意,同一个域(不是子域)在两个 CMS 上这会导致谷歌方面的任何索引问题吗? 对这个案例有什么建议吗? ...

将蜘蛛的名字添加到每一行日志中

[英]Add the spider's name to each line of log

我正在寻找一种方法,为 Scrapy 生成的每个日志加上生成它的蜘蛛的名称作为前缀。 直到现在,我都是在一个循环中同步启动每个爬虫,所以很容易跟踪哪个爬虫生成了哪个日志。 但我最近重构了我的代码,以便接受一个蜘蛛列表作为参数,或者通过CrawlerProcess() function 一次启动它们。 ...

使用漂亮的汤刮桌子但没有按要求显示

[英]Scraping tables using beautiful soup but not displaying as desired

我一直在尝试混合使用指南和 chatgpt 来抓取表格。 我一直在引入以下 html 代码: 按照这些指南,我尝试过的是 但这只给我 但我预期的 output 是 我不确定目前如何以其他方式进行。 有办法使这项工作吗? ...

如何使用 python 抓取网页中列出的每个个人链接的数据?

[英]How do I scrape the data for each personal links listed in a webpage using python?

我即将在https://chambers.com/all-lawyers-asia-pacific-8获取每位律师的详细资料。 列出了大约 5k + 律师。 但他们的详细信息列在网站的相关链接中。 我抓取单个 web 页面没有问题。 然而,我要花很长时间才能访问每个律师资料页面并逐个抓取它们。 有 ...

将随机产品添加到购物车,尝试订购

[英]Add random product to cart, try to order

假设我有随机的商店列表。 对于这家商店,我需要找到随机产品(例如,基于“添加到购物车”按钮),然后导航到购物车,输入我的名字/姓氏、电子邮件等,并尝试订购产品而不购买(我只需要看看可以选择什么样的交付方式)。 问题: 商店没有相同的用户界面商店不在同一个“引擎”上工作有些商店有多个页面(商店 1 - ...

如何通过 Selenium 获取消息?

[英]How do I get a word through Selenium?

我想通过'Selenium'提取和使用下面代码的红色字母,所以请给我一些关于如何做的建议字母表在每次尝试时随机变化 <td> <input type="text" name="WKey" id="As_wkey" value="" maxlength="10" class=" ...

如何从 ul li 标签中抓取数据,包括带有 selenium python 的页面链接?

[英]How to scrape data from ul li tag including links of pages with selenium python?

这是我要获取数据的链接,我要在这个链接中获取多页数据https://scan.multichain.org/#/tokens 我想获取上面所有33页红色间隔的数据,但我不知道如何点击页面以将数据返回到第2页以及之后的更多页。 但不为我工作 ...

Python中Playwright如何异步保存图片?

[英]How to asynchronizely save image with Playwright in Python?

我正在使用 Playwright 实现一个 python web 抓取器,我有兴趣在给定 URL 的情况下保存图像(即每个 url 包含且仅包含相应的图像)。 但是,我无法在 Playwright 中找到正确的异步 Python 方法来保存给定 url 的图像。 通过在https://playwr ...


 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM