标签[screen-scraping] - 堆栈内存溢出

当每个餐厅链接的 href 属性设置为“#”时，如何从 zaubee.com 导航和提取餐厅详细信息？ - How can I navigate and extract restaurant details from zaubee.com when the href attribute is set to "#" for each restaurant link?

当 scrapy 中的 href 属性设置为“#”时，如何抓取 zaubee.com 网站以从每个餐厅的页面中提取业务详细信息？我目前正在从事 web 抓取项目，该项目将从zaubee.com网站收集公司信息。但是，每个餐厅链接的 href 参数都设置为# ，这使我无法访问各个餐厅网站并收集所 ...

无法使用 Selenium 在无头模式下运行 Chrome - Can't run Chrome in headless mode using Selenium

所以首先是我的代码：当我运行它时，出现奇怪的长错误，最后是：但是，如果我注释掉“chrome_options.add_argument('--headless')”，我的代码工作得很好。这里有什么问题？我想问题是网站不允许我使用无头模式，我该如何解决？我希望我的程序以无头模式运行，但我受 ...

我正在尝试从亚特兰大联储屏幕上抓取日期和 GDPnow 数字 - I am trying to screen scrape the Date and GDPnow number from the Atlanta Fed

https://www.atlantafed.org/cqer/research/gdpnow 我正在尝试用亚特兰大联储的日期来筛选当前的 GDPnow 数字。目前“最新估计：3.5%——2023 年 1 月 20 日。” 然后我想获取 GDP 数字和日期并将其添加到我现有的 DF 中。 ...

Selenium：select如何在一个动态变化的页面中显示每张图片？ - Selenium: How to select each picture in a dynamically changing page?

我的情况如下：我正在编写一个机器人来自动滚动浏览 Instagram 探索页面。我想为给定主题标签出现的前 100 张图片点赞。我正在使用：Selenium、python、铬。我的问题如下：每当我滚动时，新帖子“出现”而旧帖子“消失”。我正在使用这样的 xpath：//article[ro ...

Chromedriver 在 Colab 中意外退出 - Chromedriver unexpectedly exited in Colab

在过去的 4 个月里，我一直在 google colab 中使用 chrome 驱动程序。我的代码没有任何变化，但 colab 突然开始抛出错误。错误消息： WebDriverException: Message: Service chromedriver unexpectedly exited ...

来自 hover 弹出窗口的新抓取表数据 Selenium 和 Python - New scrape table data from a hover popup with Selenium and Python

几年前我有这个 Selenium hover 刮擦工作，我记得这是对 select 正确的 hover 表格元素的挑战，它只显示在 hover 上。该网站经历了一次完整的样式大修（看起来像 Tailwind CSS），甚至尽管我使用了带强制 hover state 的检查器，但现在 Seleniu ...

亚马逊抓取 - 抓取有时有效 - Amazon Scraping - Scraping works sometimes

我出于教育目的从亚马逊抓取数据，我在使用 cookies 和 antibot 时遇到了一些问题。我设法抓取了数据，但有时 cookies 不会出现在响应中，或者反机器人标记了我。我已经尝试使用这样的随机标题列表：headers_list = [{ "User-Agent": "Mozil ...

使用 Python 从网站抓取数据/表格 - Data/Table Scraping from Website using Python

我正在尝试从网站上的表格中抓取数据。但是，我不断遇到“ValueError：无法设置列不匹配的行”。设置是：在这里，我能够创建一个空的 dataframe，其标题与表格相同（我做了 iloc，因为末尾有一些重复的列）。现在，我想通过以下方式填写空的 dataframe：但是，如前所述，我在 ...

如何抓取不是 https 的 href 的点击链接？ - How to scrape the on click link of an href that's not https?

第一次尝试 Python 和抓取 - 在下面的练习中，我抓取一个页面并打印找到的所有 href，尽管其中一些不是 https。在后一种情况下，我如何抓取实际的 https 我会点击？我尝试过但未能弄清楚如何与“onLinkClick”事件进行交互。谢谢！ ...

如何在 PHP 中创建一个简单的屏幕抓取工具 - How to create a simple screen scraper in PHP

我正在尝试创建一个简单的屏幕抓取工具来获取特定商品的价格。这是我想从中获取价格的产品示例： https://www.flanco.ro/telefon-mobil-apple-iphone-14-5g-128gb-purple.html 这是我感兴趣的 html 代码的一部分：在此处输入图片描述 ...

如何在 pyscript 中从 Github repo 安装模块？ - How to install module from Github repo in pyscript?

我想在我的 pyscript 中从 github repo 导入模块。从这个命令链接 - 这样我就可以在我的 pyscript 代码中使用这段代码- ...

Web抓取时如何绕过验证码 - How to bypass Captcha while Web Scraping

我正在尝试使用 Selenium 从该站点抓取汽车详细信息： https://www.autoscout24.ch/de/autos/alle-marken?vehtyp=10 大约每 30 页我必须验证我不是机器人，即使我已经在我的代码中包含：有什么办法可以克服这个问题吗？ ...

我如何 go 从 chrome 浏览器中抓取一些数据？ - How do I go about scraping some data from chrome browser?

我试图抓取的网页只能在登录后才能看到，因此使用直接 url 将无法正常工作。我需要在使用 chrome 浏览器登录时抓取数据。然后我需要从中获取元素的值我尝试使用以下代码。 ...

Python 使用 Webbot，不确定如何单击 chrome PDF 查看器的按钮 - Python with Webbot, not sure how to click the button of the chrome PDF viewer

我有一个 Python 应用程序使用 Webbot 浏览网站。在最后一页上，它呈现 PDF 并将其流式传输到浏览器（没有端点 URL）。这显示在 chrome PDF 查看器中，但我需要下载它。我不确定如何 go 在这里激活下载或通过 request.get() 的正常方法获取此文件 URL ...

使用 Selenium、Python 和 XPATH 尝试从网站抓取图像 url，不起作用 - Using Selenium, Python and XPATH to try to grab image urls from a website, doesn't work

这些似乎都不起作用，浏览器只是关闭或只是打印“NONE” 知道它是错误的 xpaths 还是发生了什么？非常感谢，提前这是包含图像的 HTML： ` ` 这是我的脚本： ` ` 尝试获取 url，但未成功 ...

从网站上抓取 GIF 网址 - Scraping GIF url from Websites

我对网络抓取和尝试从网站抓取 gif url 非常陌生。例如，在 gifer.com 上搜索“微笑”的 gif，然后下载列出的所有 gif 的 url。下面是我想从中提取视频的 src 元素的源示例（在本例中为https://i.gifer.com/ON0.mp4 ）。有成千上万这样的结果，我 ...

在 BeautifulSoup (bs4) 的 NavigableString 中获取文本 - Fetching Text in NavigableString in BeautifulSoup (bs4)

我正在尝试解析 rss 源，为此我需要获取图像 url。我遇到的一个问题是，有时图像 url 不是直接随标签一起提供的，而是用“src =”https://xxxxxxxxx“”放在描述标签内原始来源是：因为它是一个标签，我可以使用 findAll('content:encoded') 并且我 ...

无需登录即可访问 Instagram 用户数据 - Access Instagram user data without logging in

我想获取此 API 返回的数据： https://www.instagram.com/api/v1/users/web_profile_info/?username=kateannedesigns 当我们搜索用户时，我们甚至可以在不登录的情况下访问基本数据，但是当我使用这个实际获取数据的 api ...

为 CSV 中的多个 URL 循环运行 Selenium 命令（Python） - Run Selenium Commands in a loop for multiple URLs in CSV (Python)

我是 Python 的新手，我正在尝试在 Selenium 的帮助下抓取 Twitter（请参见下面的代码）。我有一个保存在 csv 中的网站列表，我编写的代码应该一个一个地浏览这些网站，滚动浏览它们并在每个网站上抓取特定信息。最后，所有信息最好保存在 csv 中。我能够让我的代码的 Sel ...

需要使用 VBA / Selenium 在动态生成的网页中向下滚动 - Need to scroll down in Dynamically Generated Webpage using VBA / Selenium

我正在使用 Selenium 来抓取动态生成的网页。诀窍是在我手动向下滚动页面之前，网页似乎没有生成。如果我在打开页面时搜索当前屏幕下方的对象，我会收到一条错误消息，指出 object（按类或按 XPath）不存在。如果我检查多次重复 class 的出现次数，它只返回总数的一小部分。但是，如 ...