标签[data-harvest] - 堆栈内存溢出

我正在尝试从下面的屏幕截图中抓取“1,335,000”（数字在屏幕截图的底部）。我在 R 中编写了以下代码。但是，当我调用“employee_number”时，它给了我“character(0)”。谁能帮我弄清楚为什么？ ...

我正在尝试使用 4 个下拉菜单从以下网站抓取数据 - 单击每个下拉菜单后，它们会显示一个表格，我想从中抓取数据。我想合并所有下拉菜单中所有表格的信息。我正在使用RSelenium包，但是由于我对网络抓取非常RSelenium ，我无法理解如何使用四个可用选项进行循环以获得最终表。 http ...

无法从“https://www.theaic.co.uk/aic/analysis-investment-companies”中抓取@href 标签，我正在使用 Python 3.7、scrapy、splash 并尝试使用 selenium 但没有用。 ...

当我使用Rvest工具从新闻网站抓取链接时，我经常偶然发现重定向到另一个链接的链接。在这些情况下，我只能抓取第一个链接，而第二个链接是实际包含数据的链接。例如：有没有办法使用第一个链接获取第二个链接？该网站只保留第一个。 ...

我需要在wix工具集上收集一个目录，但是该目录的名称将是构建版本号。我知道如何定义一个静态常量，但是可以使一个变量不变吗？我在论坛上进行搜索，但从未发现基于外部变量的收获。如何使这种$(build)变量起作用？有没有一种方法可以将其链接到我得到的我的variable.w ...

以下代码从网站中收集数据。我检索了一个列表列表，我想取消列出其中一个列表，对其进行编辑，然后将其重新嵌套到数据中，成为接收到数据的形式。这是我的下面的代码，它无法重新嵌套。错误：拼合错误（by_row（res，..f = function（x）flatten_chr（x）， ...

我下面的代码旨在通过API端点进行身份验证来检索数据（及其元数据），并将所有元数据返回到数据帧中。我想创建一个嵌套函数，以对具有相同身份验证的另一个API终结点重复相同的过程，并将结果从第二个终结点附加到第一个终结点，并添加到单个数据帧中（它们都具有相同的数据结构和标头）。我不知道在此过 ...

我正在尝试使用rvest （也尝试使用XML和selectr ）来收集数据，但是遇到以下问题时遇到了困难：在我的浏览器的Web检查器中，html看起来像（注意： rate-down和1226.45会定期更新。）我想获取1226.45但是当我运行代码时（如下），它说那里没有存储信 ...

在CKAN中，当我尝试创建新的Harvest Source时，出现以下错误：有人知道我该如何解决吗？我是CKAN的新手。我从源代码安装，还安装了ckanext-harvest扩展。 ...

我有一个数据集，其中将许多不同的类别和数据塞满了一个单元格。例如，我有一个单元格，其中包含个人名称和一个百分比：我想找到一个函数，该函数可以从单个单元格中查找和获取一个人的名字以及该人的相关百分比。 ...

我正在使用pycsw扩展名来生成CSW文件。我已经从一个CKAN实例[1]到另一个[2]收集了数据，现在正在寻找运行pycsw'paster load'命令：我得到错误：我认为这是因为当我访问此网址时：它带有一个JSON文件而不是一个XML文件（它是期望的） ...

使用Harvest php API http://mdbitz.com/harvest-api/examples/ ，我的Harvest php数组将打印以下数据：数据：但是当使用json类将其转换为json时，它让我空{}知道发生了什么事？ ...

在运行正常的ckan实例上，我按照以下指南安装了Harvester扩展程序： https : //github.com/ckan/ckanext-harvest 这些是我遵循的步骤：这是pip-requirements.txt的内容：我继续配置插件，一切似乎正常。我 ...

有人在尝试欺骗我，他们冒充我的亲密朋友之一来羞辱我们俩。此人创建了一个虚假的电子邮件帐户，冒充了该人，并试图从我这里获取个人信息。我和我的朋友确定那实际上不是他，现在我们试图弄清楚是谁。我想向他们发送指向某种PHP或JS页面的链接，以至少收集有关其客户端的一些信息（浏览器，操作系 ...

我们一直在使用ckanext-dcat从远程json来源进行收集，有时某些收集作业没有完成，因此必须与该来源中的所有数据集一起删除，这虽然不太方便，但后来一切恢复正常，我不知道是否有办法仅删除单个作业。但是现在我在收集消费者日志中得到了这个：作业完成了，但是没有创建任何数据集， ...

我想阻止我的网站中的数据收集（当然除了googlebot）。我猜测依赖GB的UserAgent不够强大（每个机器人都可以伪造它）我如何仍然对GoogleBot进行身份验证以避免假货。 ...

我使用的巴士公司运营着一个糟糕的网站（希伯来语，英语），这使得查询“今天从A到B的时间表”变得简单。我怀疑他们试图鼓励使用昂贵的SMS查询系统。我正在尝试通过向每个可能的点向每个可能的点提交查询来从站点中获取整个时间表，这将总计约10,000个查询。查询结果将显示在弹出窗 ...