為什么請求在特定 URL 上不起作用？

Question

我有一個問題：Python 中的請求模塊。

到目前為止，我一直在使用它來刮擦，並且效果很好。

但是，當我針對某個特定網站（下面的代碼 - 並參考 Jupyter Notebook 快照）執行此操作時，它只是不想完成任務（永遠顯示 [*]）。

from bs4 import BeautifulSoup
import requests
import pandas as pd
import json

page = requests.get('https://www.stoneisland.com/ca/stone-island-shadow-project/coats-jackets', verify = False)

soup = BeautifulSoup(page.content, 'html.parser')

一些用戶還建議使用如下標題來加快速度，但它對我也不起作用：

url = 'https://www.stoneisland.com/ca/stone-island-shadow-project/coats-jackets'

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.3'}

req = requests.get(url = url, headers = headers)

不確定發生了什么（這對我來說是第一次）但我可能會遺漏一些明顯的東西。 如果有人可以解釋為什么這不起作用？ 或者如果它在你的機器上工作，請告訴我！

Answer 1

該頁面會在您第一次訪問時嘗試添加 cookie。 通過使用請求模塊而不定義 cookie，您將無法連接到該頁面。

我已經修改了您的腳本以包含我的 cookie，它應該可以工作 - 如果沒有，請將您的 cookie（對於此主機域）從瀏覽器復制到腳本。

url = 'https://www.stoneisland.com/ca/stone-island-shadow-project/coats-jackets'

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.3'}

cookies = {
    'TS01e58ec0': '01a1c9e334eb0b8b191d36d0da302b2bca8927a0ffd2565884aff3ce69db2486850b7fb8e283001c711cc882a8d1f749838ff59d3d'
}

req = requests.get(url = url, headers = headers, cookies=cookies)

為什么請求在特定 URL 上不起作用？

問題描述

1 個解決方案

解決方案1
0 2020-02-20 08:00:16

為什么請求在特定 URL 上不起作用？

問題描述

1 個解決方案

解決方案1 0 2020-02-20 08:00:16

解決方案1
0 2020-02-20 08:00:16