cost 21 ms
python - 使用请求保存某些页面的 html 不起作用 [重复]

这个问题在这里已经有了答案: 请求中的 URL 超出了最大重试次数(20 个答案) Urllib3 错误“SSL:错误的签名类型” 3 个答案 23 分钟前关闭。 requests 库适用于大多数 URL,但有一些特别会引发 SSLE 错误,我认为这是由于来自 web 页面的某种奇怪的重定向 ...

2022-09-27 21:14:37 0 17
如何使用 selenium (python) 找到不在页面源中的元素

目前我正在尝试从网站上抓取一些东西。 为此,我需要 email 的内容,因此我为此使用 yopmail( https://yopmail.com )。 在 yopmail 中,您的邮件位于屏幕左侧,邮件主题位于其下方。 这段文字是我需要的部分。 [邮件视图][1] [devtools 代码][2] ...

2022-09-27 20:51:46 1 11
resquest 重定向处理:在 bs4 解析时获取数据时出错

更新:这是因为现在 javascript 重定向,所以信息不再在我用来报废的链接上。 如何在循环中获取重定向链接? 我的代码需要帮助,前段时间创建了一个代码来通过汤提取并请求解析 html 的一些信息。 现在代码出错了,我不知道为什么。 这是错误: /Procurement/Modules/RFB ...

2022-09-27 19:52:11 1 15
连接请求错误 - BS4 报废

我在过去可以正常工作的代码上遇到错误你能不能认为你可以让它再次工作,不知道为什么页面拒绝连接,在不同的计算机上尝试过,可能必须使用 ssl。 代码在汤上运行时失败=...所以在第二个请求中因此,如果您知道如何避免有关服务器 ip 的这种复杂性,或者我不明白并且已经努力尝试修复它的东西,请。 请启发我 ...

2022-09-27 17:37:10 0 24
列表索引超出范围 - 美丽的汤

PYTHON 新手*** 下面是我用来从网站上提取 zip 文件的代码,但我收到错误消息“列表索引超出范围”。 编写此代码的其他人给了我此代码,但我不得不更改 URL,现在我收到错误消息。 当我打印(list_of_documents)它是空白的。 有人可以帮我弄这个吗? url 需要访问权限, ...

2022-09-27 16:33:24 1 36
使用BeautifulSoup提取表

我想从以下URL中提取表格:“https://www.nordpoolgroup.com/en/Market-data1/#/nordic/table”,并最终将其存储在pandas Z6A8064D55DF479C5555705.34 下面的代码返回: table day-headers="tr ...

2022-09-27 13:43:34 1 18
使用 python 登录到带有 csrfmiddlewaretoken 验证的网站

我正在使用以下代码通过 csrfmiddlewaretoken 验证登录到一个网站,但它抛出了以下错误: “csrfmiddlewaretoken = HTML.find_all('input')[1]['value'] IndexError: 列表索引超出范围” 你认为是什么问题,我是使用 py ...

2022-09-27 12:57:53 1 21
使用 BeautifulSoup 验证 HTML

我使用 BeautifulSoup 3.2.1 来解析大量使用 eTranslation 翻译的 HTML 文件。 我发现soup = BeautifulSoup(html_file, "html.parser")有时会剪切我的 HTML 文件的一部分。 它与无效标签或在 HTML 中发现的问题有 ...

2022-09-27 12:25:37 0 22
如何在 BeautifulSoup4 中隔离这些数据?

嗨,我在如何使用 bs4 返回时遇到了麻烦(我特别想要位于 HTML 最底部的 '0HFqDSNx1c+1PUW36nrGLwuuVaYMDNWNa22trb7vXbIEGrFOizBtxVH/1z1UKG0DWMU9HcZOVHyTU//XVyLTpw==') 任何想法/解决方案都会非常感谢这是 ...

2022-09-27 11:53:51 1 20
如何获取重复标签内的元素?

我对 python 和 XML 解析很陌生。 我需要从 Internet 解析一个 XML 文件,我遇到了这个问题,我不知道如何获取我想要的信息,因为它在文档中使用了数百次的通用标签内。 XML 文件遵循以下结构: 这只是文档中的一小部分。 从这里我想得到标签内的所有代码"Codes" ,在这种 ...

2022-09-27 09:12:41 1 11
如何访问给出不可接受的错误消息的网站:406?

在搜索了 100 多个答案后,我再次来到这里,提出可能对未来某人有所帮助的新问题。 我正在浏览这个网站: https://inview.doe.in.gov/state/1088000000/school-list 。 学校名单在一个弹性框中,我相信我可以使用 selenium 获取数据。 但我只 ...

2022-09-27 07:01:19 2 33
如何忽略 find 方法给我的第一个选项?

我必须用相同的方法刮掉一个连续两次记录日期的页面。 第一次只用年份登记,第二次用完整的日期登记。 我需要如何抓取整个日期,但 find 方法只显示第一个(我不感兴趣)。 ...

2022-09-27 02:16:02 1 30
创建网页是否包含姓氏的指示器[关闭]

关闭。 这个问题需要调试细节。 它目前不接受答案。 编辑问题以包含所需的行为、特定问题或错误以及重现问题所需的最短代码。 这将帮助其他人回答问题。 28 分钟前关闭。 改进这个问题我正在尝试为 URL 是否包含特定姓氏创建指标变量。 我有一个包含 URL 和姓氏的 dataframe。 我想 ...

2022-09-26 23:29:41 1 17
如何将 JSON API 打印到 Python 中的数据帧

我已经看到了许多针对类似问题的修复程序,但我似乎无法弄清楚这个特定的 API 有什么不同。 我是新手,但尝试使用私人链接来工作,看看我是否可以加快我正在处理的手动过程。 我已经尝试了几个带有公共 API 的脚本,这些脚本可以工作——我认为这是一个权限错误,但我实际上能够使用这个脚本将 API 提要打 ...

2022-09-26 22:54:14 1 21
用 Beautiful Soup 刮擦不能正确更新值

我尝试网络抓取天气网站,但数据没有正确更新。 编码: 我正在查看“当前条件”部分中的“风和风”。 它正确打印第一个值(例如 1.0 / 2.2 mph),但之后这些值更新非常缓慢(有时经过 5 分钟以上),即使它们在网站中每 10-20-30 秒更改一次。 当 Python 中的值更新时,它们仍然与 ...

2022-09-26 20:26:46 2 41
python - 从网页中检索和保存链接,但每个域只有一个

我在尝试将网站中的链接保存到列表中而不重复具有相同域的 url 时遇到了一些麻烦例子: www.python.org/download和www.python.org/about 应该只保存第一个( www.python.org/download ),以后不要重复这就是我到目前为止所拥有的 ...

2022-09-26 18:05:53 1 19
Python 只遍历 37 个用户配置文件来抓取 - 为什么不是 BS4 找到的全部元素?

我最近为一个无限页面实现了一个滚动 function,对于一个 class 我在这里工作: 尤其参见“滚动”function。 当在这里运行时,我曾经得到几百行数据。 但是,现在,我只得到 37 的 MAX。 滚动页面后,如何确保代码遍历可在提供的页面上找到的所有“卡片”(用户配置文件)? 我在这 ...

2022-09-26 14:22:53 0 27
如何在 BeautifulSoup4 的 for 循环中将每个项目添加到列表中

嗨,我编写了一个脚本,它使用 BeautifulSoup4 来提取工作列表以及它们的详细信息和相关的应用程序链接。 我使用了一个 for 循环作为每个值(链接/标题/公司等),因为每条信息都在不同的 class 下。 我设法编写了 for 循环来提取所有数据,但不确定如何将第一个 for 循环(链接 ...

2022-09-26 13:30:01 2 29

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM