[英]Using Python to scrape information from a cloudflare site?
我在一家营销公司工作,我需要编译几百封电子邮件,并从一个网页进行分类。 我有一些python知识,所以通常我会使用一个简单的抓取工具来简化生活,但是cloudflare阻止了源中的电子邮件。
我该如何绕过呢? 显然,使用这种自动化工具比手动复制和粘贴所有电子邮件要快得多。 这是我一直在测试的程序:
import requests
import urllib
from bs4 import BeautifulSoup
website = ""
r = requests.get(website)
soup = BeautifulSoup(r.text,'html.parser')
numb = 799
while numb < 800:
numb += 1
print(r.status_code)
print(soup.prettify())
在源中,它将替换电子邮件:
<a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="">[email;protected]</a>
有什么方法可以自动在网页上复制和粘贴特定行? 我已经在常规浏览器中检查了源,并且显示了相同的内容。
谢谢您的帮助。
我知道它是一个旧线程,但是此函数将解码电子邮件字符串:
def cfDecodeEmail(encodedString):
r = int(encodedString[:2],16)
email = ''.join([chr(int(encodedString[i:i+2], 16) ^ r) for i in range(2, len(encodedString), 2)])
return email
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.