無法通過請求下載 Python3x 中的特定網頁

Question

以下代碼適用於其他幾個 URL，但不適用於特定的 URL。 不知道為什么以及如何解決它？ 對於 money.usunew.com 它掛起。 但是對於我嘗試過的所有其他 URL，例如 usatoday.com，它都可以工作。

import requests

from bs4 import BeautifulSoup

url = 'https://money.usnews.com' # does NOT work for this URL but works for 'https://www.usatoday.com' 

result = requests.get(url)

src = result.content

soup = BeautifulSoup(src, 'html.parser')

print(soup.prettify())

Answer 1

這是因為該網站阻止了蜘蛛。 您可以添加timeout來檢查它。

result = s.post('https://money.usnews.com', timeout=15)

你得到了：

requests.exceptions.ReadTimeout: HTTPSConnectionPool(host='money.usnews.com', port=443): Read timed out. (read timeout=15)

類似的問題：

如何使用 Python 請求庫在發布請求中發送 cookies？

無法通過請求下載 Python3x 中的特定網頁

問題描述

1 個解決方案

解決方案1
0 2021-02-13 03:54:24

無法通過請求下載 Python3x 中的特定網頁

問題描述

1 個解決方案

解決方案1 0 2021-02-13 03:54:24

解決方案1
0 2021-02-13 03:54:24