标签[web-scraping] - 堆栈内存溢出

当每个餐厅链接的 href 属性设置为“#”时，如何从 zaubee.com 导航和提取餐厅详细信息？ - How can I navigate and extract restaurant details from zaubee.com when the href attribute is set to "#" for each restaurant link?

当 scrapy 中的 href 属性设置为“#”时，如何抓取 zaubee.com 网站以从每个餐厅的页面中提取业务详细信息？我目前正在从事 web 抓取项目，该项目将从zaubee.com网站收集公司信息。但是，每个餐厅链接的 href 参数都设置为# ，这使我无法访问各个餐厅网站并收集所 ...

Selenium 无头模式打开浏览器TimeoutException错误 - TimeoutException error on opening the browser in headless mode in Selenium

我正在使用这个vezeeta.com来抓取一些关于毒品的信息，我正在使用 selenium 来处理这个网站。我已经允许用户输入药物名称，然后 Selenium 将键入用户在提到的网站的搜索框中输入的药物名称，并且 select 将成为下拉菜单中的第一个选项，然后它将在浏览器中打开一个新页面，然后从 ...

如何“取消评论”Beautifulsoup 的评论内容？ - How can I 'uncomment' the contents of a comment with Beautifulsoup?

我正在使用来自 bs4 版本的 BeautifulSoup：'4.10.0' 我正在为我正在开发的项目做一些抓取，我遇到了一个问题，我抓取的一些元素出于某种原因被评论了。<div class="h-[125] js-scroll-hidden" id="link-index-40"> ...

双引号里面需要空格吗？ - Do double quotes need space inside?

很简单，但我很困惑。在我的 Python 脚本上，它使用 selenium 进行 web 抓取，所有输入都是对于国家/地区，内部不需要空格，但是当涉及到输入发送键时，在 " 之后没有空格，它确实会在将其写入网站时删除第一个字母。是有什么特殊原因还是取决于网站？对不起我的英语我还在学习。我 ...

使用 wget 从 Instagram 下载图片 - Downloading images from Instagram with wget

我正在尝试从 Instagram 下载图片，代码是：问题是 wget 不能正常工作，或者我做错了什么，但我想不通， ValueError：没有足够的值来解压（预期 2，得到 1）我已经在 (image, save_as) 中定义了 url 和目标值，但它一直给我这个错误。有人能帮助我吗？完 ...

Python 链接抓取器正则表达式仅在搜索 1 种扩展类型时有效，但在匹配多种扩展类型时失败 - Python link scraper regex works when only searching for 1 extension type, but fails when matching more than one extension type

这是我用于该项目的测试链接： https://www.dropbox.com/sh/4cgwf2b6gk4bex4/AADtM1GDYgPDdv8QP6JdSOkba?dl=0 现在，下面的代码仅在匹配 for.mp3 时有效（第 8 行），并按要求将纯链接输出到文本文件。问题是，上面的测试链接不 ...

尝试从 Clockify 导出数据 - Trying to Export the Data from Clockify

我一直在尝试使用 VBA 并使用以下代码将 Clockify 中的所有数据提取到 Excel 中，但该代码中没有 output 非常感谢您的帮助。运行代码时获得此响应{"code":405,"message":"HTTP 405 Method Not Allowed"} ...

我的 selenium 脚本正确地抓取了谷歌地图第一个链接中的变量，但是当它加载第二个链接时它显示了一些错误 - My selenium script is scraping the variables in the first link of google maps correctly , but when it loads the second link it shows some error

`这个脚本的目标是从 excel 文件中获取企业名称，然后在谷歌地图上搜索它并抓取所需的数据，问题是脚本运行正确并在谷歌地图上抓取第一个企业名称的数据。但是当第二个链接加载并且出现 data.table 时它给出了一些错误，那么我该如何解决它。随意在您的编译器上运行此脚本。您可以创建一个 ex ...

迭代被覆盖 - Iterations are getting overwritten

希望读这篇文章的人一切都好。我想做的是从 NIST ILThermo 网站上提取关于纯（单一组分）离子液体的粘度及其测量条件的数据表。我正在使用此代码，由一个名为 HedgeHog 的用户编写，但它会自行覆盖而不显示所有不同的温度及其粘度。相反，它显示了整个表格的最后温度和粘度。这是代码：i ...

从 Python 字典中的键中获取值 - Fetching the value from the key in Python's dict

我正在从 JSON 中的 'key' 中获取 'value'，但我不知道为什么我无法获取目标信息。下面的代码下面是本例的JSON。（链接中的信息是公开的。因此，我不会删除 1194452 的详细信息）。问题由于 type(x) 是 Python 中的 'dict'，为什么我不能获取键的值？ ...

python 垂直滚动特定的滚动条 - python scroll a specific scrollbar vertically

我正在使用 python selenium 滚动网页，我试图通过单击滚动元素到达页面底部，但它返回此错误： MoveTargetOutOfBoundsException: move target out of bounds 到目前为止我的代码：还有另一种使用“scrollbar_needed”路径 ...

除非单击文本，否则我无法访问隐藏了 selenium 个元素的文本框 - I can not access text box with selenium elements hid unless text clicked

我在 python 和 Selenium 工作。当我点击这条线时并使用click()或send.keys(8)复制路径，它不会 go 到第 8 页它只是闪烁并继续移动到下一行代码。但是，作为一个人，如果我单击该框，它会更改元素以显示带有输入部分的第二张图片。我不知道该怎么办我也试过图像 ...

如何只从 Snscrape 获取推文？ - How to get only tweets from Snscrape?

使用 Snscrape 从 Twitter 抓取数据后，我无法只获取推文。在 tweet.sourceLabel 的列下，我混合了 twitter、instagram 和 foursquare。 ...

我是使用 random randint 还是 random choice 来随机点击列表？ - Do I use random randint or random choice to random click on the list?

对于下图，我想执行一个自动化测试，随机点击项目并保存。这是一个列表吗？ Selenium Python ...

我用Python做webscraping时怎么写两个For循环？ - How can I write two For Loops when I do webscraping with Python?

我想写一个代码来抓取多个网页。但是，问题是网页中有两个数字变体。正如我们在这里看到的，页码和文档编号同时变化。到目前为止我写了这个，但它只循环页码，所以它没有给我任何东西。有什么方法可以为页码和文档编号创建外观吗？ ...

尝试使用 BeautifulSoup 从 Kayak 网站获取 href URL - Trying to grab href URLs from Kayak website using BeautifulSoup

我试图从出现在这个 Kayak 网站上的每张卡片中获取 URL，当我尝试运行下面的代码时，我收到了BrokenPipeError: [Errno 32] Broken pipe错误。有人可以帮助我获得正确的代码以从该页面的航班结果中获取所有 URL 吗？ ...

Selenium java.net.SocketException：调用 driver.quit() 时连接重置； - Selenium java.net.SocketException: Connection reset when calling driver.quit();

我看到了这些线程： java.net.SocketException：在 Selenium driver.close() 或 driver.quit() 语句上重置连接 selenium/java- java.net.SocketException: 连接重置但我仍然不明白这里的问题。一切正常 ...

如何用 BeautifulSoup 获取文本和对应的标签？ - How to get text and corresponding tag with BeautifulSoup?

我有一个文本，包含 HTML 个标签，例如：我使用BeautifulSoup解析了这段文本。我想用相应的文本和标签提取每个句子。我试过：我也试过soup.find_all()并停留在同一点：我可以访问文本但不能访问原始标签。 ...

登录墙后面的抓取表 - Scraping table behind login wall

我正在努力获取正确的代码片段，以将受密码保护的网站的表格抓取到 excel 工作簿中。我已经能够获得所有代码来处理表格部分。当我运行代码时，它打开 IE，登录但随后出错（91：Object 变量或未设置 WITH 块变量）。代码如下：我已经包含了我在登录后尝试在重定向页面上抓取的表的 HTM ...

使用 Puppeteer 和 Cheerio 抓取带有图像的卡片列表时缺少数据 - Missing data when scraping list of cards with images with Puppeteer and Cheerio

我正在尝试抓取一页卡片项目。我想从这些卡片中提取标题、价格、图像来源和其他属性。然而，当我使用 Puppeteer 和 Cheerio 进行抓取时，一些数据丢失了。见下图：我怎样才能确保所有数据都通过？这是我的代码：(async () => { try { const ...