如何在 Python 中绕过 BeautifulSoup 的 Recaptcha？

Question

我希望使用BeautifulSoup ( BS4 ) 从https://www.example.com获取数据

req = requests.get('https://www.example.com/')
soup = BeautifulSoup(req.text, "lxml")
cDF = soup.find('div',attrs={"id" : "nav-tabContent"}).find(
    'table',attrs={"id" : "main_table_countries_today"}).find_all('tr')

我发现一个错误

cDF = soup.find('div',attrs={"id" : "nav-tabContent"}).find(
AttributeError: 'NoneType' object has no attribute 'find'

我在调试soup的时候，发现其实是显示被Cloudflare的recaptcha页面卡住了。

我检查了其他类似的问题，但发现大多数问题的答案为零。 已经回答了一个（2 个回复）以检查与我的查询无关的特定机器人测试。 因此，我认为这个问题一定不能标记为重复问题。

请告诉我如何绕过 recaptcha 获取分析数据。 顺便说一下，我在 ubuntu 的 google chrome 中使用 privacypass。谢谢。

Answer 1

尝试更改用户代理 header。例如，它可以与 curl 一起使用，因此没有任何高级保护。

Answer 2

我希望使用BeautifulSoup ( BS4 ) 从https://www.example.com获取数据

req = requests.get('https://www.example.com/')
soup = BeautifulSoup(req.text, "lxml")
cDF = soup.find('div',attrs={"id" : "nav-tabContent"}).find(
    'table',attrs={"id" : "main_table_countries_today"}).find_all('tr')

我发现一个错误

cDF = soup.find('div',attrs={"id" : "nav-tabContent"}).find(
AttributeError: 'NoneType' object has no attribute 'find'

当我调试soup时，我发现它实际上显示它被Cloudflare的recaptcha页面卡住了。

我检查了其他类似的问题，而我发现大多数问题的答案都是零。 已回答一个（2 个答复）以检查与我的查询无关的特定机器人测试。 因此，我认为这个问题不能被标记为重复问题。

请告诉我如何绕过 recaptcha 获取分析数据。 顺便说一句，我在 ubuntu 的谷歌浏览器中使用了隐私密码。 谢谢。

如何在 Python 中绕过 BeautifulSoup 的 Recaptcha？

问题描述

1 个解决方案

解决方案1
0 2020-06-03 20:04:07

解决方案2
0 2020-06-04 08:51:44

如何在 Python 中绕过 BeautifulSoup 的 Recaptcha？

问题描述

1 个解决方案

解决方案1 0 2020-06-03 20:04:07

解决方案2 0 2020-06-04 08:51:44

解决方案1
0 2020-06-03 20:04:07

解决方案2
0 2020-06-04 08:51:44