
[英]Testing for crawler is necessary or not?
爬虫工具有必要测试吗? 以何种方式? 我公司正在使用爬虫工具(通过API和GUI)为客户收集数据。 问题是有时目标网站的 GUI 有一些变化,导致爬虫出错或数据丢失。 现在老板想要确保每次发生变化时,他们都会立即知道(当然是通过 DevOps/CICD)。 但是,我不确定应该使用哪种方法进行测试。 ...
[英]Testing for crawler is necessary or not?
爬虫工具有必要测试吗? 以何种方式? 我公司正在使用爬虫工具(通过API和GUI)为客户收集数据。 问题是有时目标网站的 GUI 有一些变化,导致爬虫出错或数据丢失。 现在老板想要确保每次发生变化时,他们都会立即知道(当然是通过 DevOps/CICD)。 但是,我不确定应该使用哪种方法进行测试。 ...
[英]Spider error processing scrapy when trying to fetch any url
所以我是 Scrapy 的新手,当我尝试在 scrapy shell 中获取任何 url 时,我会收到此错误。 我在虚拟环境中安装了 Scrapy。 ...
[英]How to crawl multiple pages and create a dataframe with parsing?
我想从一个网站加载多个页面,并从不同的类中提取特定属性,如下所示。 然后我想用来自多个页面的解析信息创建一个 dataframe。 从多个页面中提取 解析 至 DataFrame ...
[英]how to crawl vue.js based website with beautifulsoup?
我尝试使用 beautifulsoup 抓取网站,但遇到了: <p data-v-57d17052 class="text text--gray70 text--subtitle2">Hello</p> 而且出于某种原因,这不允许我使用 beatifulsoup 的功能。 ...
[英]Sendkeys selenium (python)
我正在使用 selenium 和 python 抓取一个网站。这个网站有一个搜索引擎,可以让你写。 当我包含文本时,在按下回车键之前,我需要等待一段时间,否则它会进行搜索。 我想知道是否有办法包含 fluentwait 而不是使用 time.sleep time.sleep() ...
[英]How to get scrap web entire page data without physically scrolling?
我正在使用以下代码提取该网页的信息,但它只提取前 18 行信息。 我怎样才能确保我正在加载 2063 行信息。 我已经尝试了以下 4 段代码来滚动浏览网页,但它们都不起作用(我不确定是否需要这一步): 方法一: 方法二: 方法三: 方法四: ...
[英]crawling price gives null , HtmlAgilityPack (C#)
我试图从一个带有 webcrawler 的网站获取股票数据作为一个业余项目。 我得到了工作链接,我得到了股票名称,但我无法得到价格...我不知道如何处理 html 代码。 这是我的代码, 我得到了正确的名称,但我真的不知道如何获得 ChangeInPercent ....我将在下面的 html 代 ...
[英]How to click a pdfviewer download button in shadowroot(open) with selenium Python
我正在访问这个 url ( https://cissearch.kcc.gov.tw/System/Bulletin/View.aspx?BulletinSN=239928&pages=9957#pdfStart ) 和 selenium in python,我正在尝试点击下载pdfvie ...
[英]Multiple CMS for one domain and with different URL structures
我来到了一个由两个 CMS 构建的站点:一部分是 magento(产品),另一部分是 WP(仅博客部分) Magento 的 URL 没有斜杠,只有博客文章的 WP URL 有斜杠。 请注意,同一个域(不是子域)在两个 CMS 上这会导致谷歌方面的任何索引问题吗? 对这个案例有什么建议吗? ...
[英]Add the spider's name to each line of log
我正在寻找一种方法,为 Scrapy 生成的每个日志加上生成它的蜘蛛的名称作为前缀。 直到现在,我都是在一个循环中同步启动每个爬虫,所以很容易跟踪哪个爬虫生成了哪个日志。 但我最近重构了我的代码,以便接受一个蜘蛛列表作为参数,或者通过CrawlerProcess() function 一次启动它们。 ...
[英]Scraping tables using beautiful soup but not displaying as desired
我一直在尝试混合使用指南和 chatgpt 来抓取表格。 我一直在引入以下 html 代码: 按照这些指南,我尝试过的是 但这只给我 但我预期的 output 是 我不确定目前如何以其他方式进行。 有办法使这项工作吗? ...
[英]Robots.txt file and Googlebot crawability
此robots.txt是否允许 Googlebot 抓取我的网站? ...
[英]How do I scrape the data for each personal links listed in a webpage using python?
我即将在https://chambers.com/all-lawyers-asia-pacific-8获取每位律师的详细资料。 列出了大约 5k + 律师。 但他们的详细信息列在网站的相关链接中。 我抓取单个 web 页面没有问题。 然而,我要花很长时间才能访问每个律师资料页面并逐个抓取它们。 有 ...
[英]Add random product to cart, try to order
假设我有随机的商店列表。 对于这家商店,我需要找到随机产品(例如,基于“添加到购物车”按钮),然后导航到购物车,输入我的名字/姓氏、电子邮件等,并尝试订购产品而不购买(我只需要看看可以选择什么样的交付方式)。 问题: 商店没有相同的用户界面商店不在同一个“引擎”上工作有些商店有多个页面(商店 1 - ...
[英]How do I get a word through Selenium?
我想通过'Selenium'提取和使用下面代码的红色字母,所以请给我一些关于如何做的建议字母表在每次尝试时随机变化 <td> <input type="text" name="WKey" id="As_wkey" value="" maxlength="10" class=" ...
[英]How to scrape data from ul li tag including links of pages with selenium python?
这是我要获取数据的链接,我要在这个链接中获取多页数据https://scan.multichain.org/#/tokens 我想获取上面所有33页红色间隔的数据,但我不知道如何点击页面以将数据返回到第2页以及之后的更多页。 但不为我工作 ...
[英]How to asynchronizely save image with Playwright in Python?
我正在使用 Playwright 实现一个 python web 抓取器,我有兴趣在给定 URL 的情况下保存图像(即每个 url 包含且仅包含相应的图像)。 但是,我无法在 Playwright 中找到正确的异步 Python 方法来保存给定 url 的图像。 通过在https://playwr ...
[英]How can I skip 'Connection aborted.', OSError(0, 'Error') in Python?
当我运行这段代码时,第 2 行经常出现错误。 有什么办法可以跳过这个错误并转到 time.sleep 行吗? 先感谢您! ...
[英]I want to get text from "aria-label" by python selenium
输出<selenium.webdriver.remote.webelement.WebElement (session="867a6f4433baacd665edd311671faa81", element="69d53b22-5d2e-4e1a-8f55-682affc043b1")> ...