無法使用請求模塊從網頁中抓取 email 地址

Question

我正在嘗試使用請求模塊從該網頁中抓取 email 地址，而不是 selenium。雖然 email 地址被混淆並且不存在於頁面源中，但 javascript function 會生成此地址。 我如何利用以下部分在該網頁中顯示 email 地址？

document.write("\u003cn uers=\"znvygb:gnneba@zbsb.pbz\"\u003egnneba@zbsb.pbz\u003c/n\u003e".replace(/[a-zA-Z]/g, function(c){return String.fromCharCode((c<="Z"?90:122)>=(c=c.charCodeAt(0)+13)?c:c-26);}));

到目前為止，我已經嘗試過：

import requests
from bs4 import BeautifulSoup

link = 'https://www.californiatoplawyers.com/lawyer/311805/tobyn-yael-aaron'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
}
res = requests.get(link,headers=headers)
soup = BeautifulSoup(res.text,"html.parser")
email = soup.select_one("dt:-soup-contains('Email') + dd")
print(email)

預計 output：

taaron@mofo.com

Answer 1

對於這些任務，我推薦js2py模塊：

import js2py
import requests
from bs4 import BeautifulSoup

link = "https://www.californiatoplawyers.com/lawyer/311805/tobyn-yael-aaron"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36",
}
res = requests.get(link, headers=headers)
soup = BeautifulSoup(res.text, "html.parser")
email = soup.select_one("dt:-soup-contains('Email') + dd")

js_code = email.script.contents[0].replace("document.write", "")
email = BeautifulSoup(js2py.eval_js(js_code), "html.parser").text
print(email)

印刷：

taaron@mofo.com

無法使用請求模塊從網頁中抓取 email 地址

問題描述

1 個解決方案

解決方案1
2 已采納 2022-09-22 21:36:45

無法使用請求模塊從網頁中抓取 email 地址

問題描述

1 個解決方案

解決方案1 2 已采納 2022-09-22 21:36:45

解決方案1
2 已采納 2022-09-22 21:36:45