cost 320 ms
使用 R 进行网页抓取:具有多个下拉菜单 - Web scraping with R: with multiple dropdown menu

我正在尝试使用 4 个下拉菜单从以下网站抓取数据 - 单击每个下拉菜单后,它们会显示一个表格,我想从中抓取数据。 我想合并所有下拉菜单中所有表格的信息。 我正在使用RSelenium包,但是由于我对网络抓取非常RSelenium ,我无法理解如何使用四个可用选项进行循环以获得最终表。 http ...

链接重定向问题 - 使用 Rvest 在 R 中进行网页抓取 - Link redirection problem - Web Scraping in R using Rvest

当我使用Rvest工具从新闻网站抓取链接时,我经常偶然发现重定向到另一个链接的链接。 在这些情况下,我只能抓取第一个链接,而第二个链接是实际包含数据的链接。 例如: 有没有办法使用第一个链接获取第二个链接? 该网站只保留第一个。 ...

如何在带有HeatDirectory的Harvest的DefineConstants中基于构建版本放置变量? - How to put a variable base on your build version in DefineConstants for a Harvest with HeatDirectory?

我需要在wix工具集上收集一个目录,但是该目录的名称将是构建版本号。 我知道如何定义一个静态常量,但是可以使一个变量不变吗? 我在论坛上进行搜索,但从未发现基于外部变量的收获。 如何使这种$(build)变量起作用? 有没有一种方法可以将其链接到我得到的我的variable.w ...

R中的数据收集:获取嵌套列表,取消列表,进行编辑,重新嵌套 - Data Harvesting in R: Get nested lists, unlist, make edits, re-nest them back

以下代码从网站中收集数据。 我检索了一个列表列表,我想取消列出其中一个列表,对其进行编辑,然后将其重新嵌套到数据中,成为接收到数据的形式。 这是我的下面的代码,它无法重新嵌套。 错误:拼合错误(by_row(res,..f = function(x)flatten_chr(x), ...

嵌套函数从R中的多个URL(带有身份验证)检索数据 - Nested function to retrieve data from multiple URLs (with authentication) in R

我下面的代码旨在通过API端点进行身份验证来检索数据(及其元数据),并将所有元数据返回到数据帧中。 我想创建一个嵌套函数,以对具有相同身份验证的另一个API终结点重复相同的过程,并将结果从第二个终结点附加到第一个终结点,并添加到单个数据帧中(它们都具有相同的数据结构和标头)。 我不知道在此过 ...

使用RVest收集数据不会从data-widget中获取任何值 - Harvesting data with rvest retrieves no value from data-widget

我正在尝试使用rvest (也尝试使用XML和selectr )来收集数据,但是遇到以下问题时遇到了困难: 在我的浏览器的Web检查器中,html看起来像 (注意: rate-down和1226.45会定期更新。)我想获取1226.45但是当我运行代码时(如下),它说那里没有存储信 ...

如何为数据集显示XML页面而不是JSON - How can I display an XML page instead of JSON, for a dataset

我正在使用pycsw扩展名来生成CSW文件。 我已经从一个CKAN实例[1]到另一个[2]收集了数据,现在正在寻找运行pycsw'paster load'命令: 我得到错误: 我认为这是因为当我访问此网址时: 它带有一个JSON文件而不是一个XML文件(它是期望的) ...

使用PHP / JavaScript链接获取有关网站访问者的信息 - Using PHP/JavaScript link to get information about site visitor

有人在尝试欺骗我,他们冒充我的亲密朋友之一来羞辱我们俩。 此人创建了一个虚假的电子邮件帐户,冒充了该人,并试图从我这里获取个人信息。 我和我的朋友确定那实际上不是他,现在我们试图弄清楚是谁。 我想向他们发送指向某种PHP或JS页面的链接,以至少收集有关其客户端的一些信息(浏览器,操作系 ...

使用DCAT扩展程序的收割机被卡住 - Harvesters using DCAT extension get stucked

我们一直在使用ckanext-dcat从远程json来源进行收集,有时某些收集作业没有完成,因此必须与该来源中的所有数据集一起删除,这虽然不太方便,但后来一切恢复正常,我不知道是否有办法仅删除单个作业。 但是现在我在收集消费者日志中得到了这个: 作业完成了,但是没有创建任何数据集, ...

使用python自动按下“提交”按钮 - Automatically pressing a “submit” button using python

我使用的巴士公司运营着一个糟糕的网站( 希伯来语 , 英语 ),这使得查询“今天从A到B的时间表”变得简单。 我怀疑他们试图鼓励使用昂贵的SMS查询系统。 我正在尝试通过向每个可能的点向每个可能的点提交查询来从站点中获取整个时间表,这将总计约10,000个查询。 查询结果将显示在弹出窗 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM