無法使用請求模塊從靜態網頁中抓取信息

Question

我正在嘗試使用 requests 模塊從網頁中獲取product title及其description 。 標題和描述似乎是靜態的，因為它們都存在於頁面源代碼中。 但是，我未能通過以下嘗試抓住它們。 腳本此時拋出AttributeError 。

import requests
from bs4 import BeautifulSoup

link = 'https://www.nordstrom.com/s/anine-bing-womens-plaid-shirt/6638030'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36',
}

with requests.Session() as s:
    s.headers.update(headers)
    res = s.get(link)
    soup = BeautifulSoup(res.text,"lxml")
    product_title = soup.select_one("h1[itemProp='name']").text
    product_desc = soup.select_one("#product-page-selling-statement").text
    print(product_title,product_desc)

如何使用請求模塊從上面的頁面中抓取標題和描述？

Answer 1

頁面是動態的。 從 api 源獲取數據：

import requests
import pandas as pd

api = 'https://www.nordstrom.com/api/ng-looks/styleId/6638030?customerId=f36cf526cfe94a72bfb710e5e155f9ba&limit=7'
jsonData = requests.get(api).json()

df = pd.json_normalize(jsonData['products'].values())

print(df.iloc[0])

輸出：

id                                                       6638030-400
name                                  ANINE BING Women's Plaid Shirt
styleId                                                      6638030
styleNumber                                                         
colorCode                                                        400
colorName                                                       BLUE
brandLabelName                                            ANINE BING
hasFlatShot                                                     True
imageUrl           https://n.nordstrommedia.com/id/sr3/6d000f40-8...
price                                                        $149.00
pathAlias          anine-bing-womens-plaid-shirt/6638030?origin=c...
originalPrice                                                $149.00
productTypeLvl1                                                   12
productTypeLvl2                                                  216
isUmap                                                         False
Name: 0, dtype: object

Answer 2

當測試像這樣的請求時，你應該輸出響應來看看你得到了什么。 最好使用 Postman 之類的東西（我認為 VSCode 現在有類似的功能）來設置 URL、標頭、方法和參數，並且還可以查看帶有標頭的完整響應。 當一切正常時，只需將其轉換為 python 代碼。 Postman 甚至有一些通用語言的“導出到代碼”功能。

無論如何...

我在 Postman 上嘗試了您的請求並得到了以下回復：