无法从网页上抓取静态信息

Question

我已经在Python创建脚本中使用凭证登录网页，然后分析了条信息SIGN OUT从另一个链接（该脚本应该重定向到该链接），以确保我没有登录。

我尝试过：

import requests
from bs4 import BeautifulSoup

url = "https://member.angieslist.com/gateway/platform/v1/session/login"
link = "https://member.angieslist.com/"

payload = {"identifier":"usename","token":"password"}

with requests.Session() as s:
    s.post(url,json=payload,headers={
        "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36",
        "Referer":"https://member.angieslist.com/member/login",
        "content-type":"application/json"
        })

    r = s.get(link,headers={"User-Agent":"Mozilla/5.0"},allow_redirects=True)
    soup = BeautifulSoup(r.text,"lxml")
    login_stat = soup.select_one("button[class*='menu-item--account']").text
    print(login_stat)

当我运行上面的脚本，我得到AttributeError: 'NoneType' object has no attribute 'text'这个错误，这意味着我去什么地方错了我的登录过程，我想分析的信息SIGN OUT是一个静态的内容。

我如何解析这个SIGN OUT从网页信息？

Answer 1

该网站需要使用JavaScript。 尽管您可以通过登录API正确生成登录令牌，但是当您转到主页时，它将进行多个其他API调用，然后更新页面。

因此，问题与登录不起作用无关。 您需要为此使用诸如硒之类的东西

from selenium import  webdriver

driver = webdriver.Chrome()

driver.get("https://member.angieslist.com/member/login")
driver.find_element_by_name("email").send_keys("none@getnada.com")
driver.find_element_by_name("password").send_keys("NUN@123456")
driver.find_element_by_id("login--login-button").click()
import time
time.sleep(3)
soup = BeautifulSoup(driver.page_source,"lxml")
login_stat = soup.select("[id*='menu-item']")

for item in login_stat:
    print(item.text)
print(login_stat)
driver.quit()

我在这里混合了bs4和selenium以便于您使用，但是如果您愿意，也可以只使用selenium

无法从网页上抓取静态信息

问题描述

1 个解决方案

解决方案1
2 已采纳 2019-08-08 04:00:10

无法从网页上抓取静态信息

问题描述

1 个解决方案

解决方案1 2 已采纳 2019-08-08 04:00:10

解决方案1
2 已采纳 2019-08-08 04:00:10