cost 58 ms
访问用于抓取数据的元素

我想访问突出显示的元素。 这是访问 9gag 网站中子评论部分的 html 的一部分。 我使用这个模因https://9gag.com/gag/a5EAv9O作为程序的示例输入。 我使用以下代码访问但它不起作用。 链接到我现在正在使用的整个代码。 目标是抓取 meme 的所有评论和子评论。 ...

2022-07-02 16:32:25 0 30
使用 Axios 和 Cheerio 操纵 DOM 获取

有一个网站,每个模型都有多个图像。 一开始,在我们单击每个模型之前,没有显示任何图像,这导致将该模型的图像添加并加载到图库(从 CDN 获取)。 没有任何模式可以模拟远程调用。 我使用 Axios + Cheerio npm 包来获取数据,但我只能保存页面的第一次加载,并且无法模拟导致操作 DOM ...

2022-07-02 09:29:45 0 16
如何解析类名根据值发生变化的值?

我有下一个html代码: 我需要用<span class="plus">20%</span>和<span class="minus">-15%</span>解决这种情况。 在 html 代码中,可以看到这两行,但实时是这样的:如果值为负数,html ...

2022-07-02 08:46:04 1 39
如何使用 selenium python 获取不记名令牌?

如何在 selenium 中获取此不记名令牌? 当我使用 Isomnia 之类的 API 客户端时,我发现它可以在我提供 cURL 后自动获取承载令牌。 但是,当我尝试使用 selenium 获取不记名令牌时,我发现没有这样的方法或属性。 ...

2022-07-02 04:37:59 1 19
这些 url rest 参数是如何生成的

我正在使用一个网站,在该网站上,我可以根据 url 中的 rest 参数下载公开的免费数据,如下所示。 在线 DCR 编号的网址:http://mutation.land.gov.bd/pages/doc?data= 21192f7 哈提语的网址: https ://mutation.la ...

2022-07-02 02:38:00 0 28
不能用cheerio刮文字

我正在尝试用cheerio https://en.dict.naver.com/#/search?query=%EC%B6%94%EC%9B%8C%EC%9A%94&range=all抓取此页面,但我什么都得不到。 我试图得到那个'Word-Idiom'文本,但我没有得到任何回应。 这 ...

2022-07-01 23:27:32 2 32
使用 rvest 未在网页上显示的 Web 抓取数据

这是上一个问题的后续: Scraping data using R and puts results in a data frame 我正在尝试从 Glassdoor 上收集评论,包括子评分(工作与生活的平衡、文化和价值观等)。 子评级位于下拉菜单中,并显示为星数 (1-5)。 Dave2e 为 ...

2022-07-01 22:05:36 1 47
Webscraping Python BS4 问题不返回数据

我是新来的,已经阅读了许多历史帖子,但无法准确找到我想要的东西。 我是网络抓取的新手,并已成功从少数网站抓取数据。 但是,当我尝试使用漂亮的汤提取产品的标题时,我遇到了此代码的问题,但是代码中的某处有问题,因为它没有返回数据? 任何帮助,将不胜感激: 我认为我的问题出在 find_all 函 ...

2022-07-01 21:38:30 2 29
如何从linkedin废弃教育/经验?

正在做一个项目,目前需要从linkedin配置文件中抓取经验/教育部分(使用beautifulsoup)。目前有浏览器和汤。 似乎linkedin已经改变了html格式,不再有section:{“id”:education-section}和section:{“id”:experience-sect ...

2022-07-01 20:54:20 0 12
如何将此 1 项列表分成多个列表?

我正在开展一个项目,该项目将从https://www.pro-football-reference.com/years/2021/passing.htm中删除数据。 我的用于抓取表格标题的代码可以正常工作,但是我在格式化表格主体时遇到了很多麻烦,因为它会将玩家统计信息分成几行。 当我运行prin ...

2022-07-01 19:26:23 1 37
如何保存在浏览器上加载的文件

我想在我可以访问的页面上保存一些PDF (我的工作簿的解决方案,所以没有任何非法或 smth),但在访问它们时似乎需要某种身份验证,因为请求具有每次都会更改的签名等内容 当我转到该链接时,我得到一个403 Error 。 当文件加载到我的浏览器上时,我认为必须有一种访问它的方法。 如果有帮助,该页 ...

2022-07-01 18:35:47 0 37
使用 httr2 的 POST 请求,从 rvest 代码翻译

我设法用rvest从这个网站上刮了我的成绩,但我想知道如何用httr2 ,因为我认为它会大大提高速度。 所以,我需要帮助是将我的代码转换为httr2方法。 到目前为止我用httr2尝试了什么。 我很难理解如何将参数/代码传递给站点。 ...

2022-07-01 18:33:02 0 26
如何抓取多个站点以获取类似信息?

我正在尝试从多个网站上抓取所有名称,但每个网站的名称都有不同的 html 标记。 有没有一种方法可以建立一个通用的方法来一次刮掉它们? 我认为接近它的方式是: 首先迭代,直到标签包含文本“名称”,然后使用 .findChildren() 找到包含名称的标签的子标签,然后使用标签提取包含名称的文本 ...

2022-07-01 13:51:29 0 22

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM