繁体   English   中英

使用Python从cloudflare网站抓取信息?

[英]Using Python to scrape information from a cloudflare site?

我在一家营销公司工作,我需要编译几百封电子邮件,并从一个网页进行分类。 我有一些python知识,所以通常我会使用一个简单的抓取工具来简化生活,但是cloudflare阻止了源中的电子邮件。

我该如何绕过呢? 显然,使用这种自动化工具比手动复制和粘贴所有电子邮件要快得多。 这是我一直在测试的程序:

import requests
import urllib
from bs4 import BeautifulSoup

website = ""
r = requests.get(website)
soup = BeautifulSoup(r.text,'html.parser')

numb = 799

while numb < 800:
    numb += 1
    print(r.status_code)
    print(soup.prettify())

在源中,它将替换电子邮件:

<a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="">[email;protected]</a> 

有什么方法可以自动在网页上复制和粘贴特定行? 我已经在常规浏览器中检查了源,并且显示了相同的内容。

谢谢您的帮助。

我知道它是一个旧线程,但是此函数将解码电子邮件字符串:

def cfDecodeEmail(encodedString):
    r = int(encodedString[:2],16)
    email = ''.join([chr(int(encodedString[i:i+2], 16) ^ r) for i in range(2, len(encodedString), 2)])
    return email

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM