[英]Unable to download a specific webpage in Python3x with requests
以下代碼適用於其他幾個 URL,但不適用於特定的 URL。 不知道為什么以及如何解決它? 對於 money.usunew.com 它掛起。 但是對於我嘗試過的所有其他 URL,例如 usatoday.com,它都可以工作。
import requests
from bs4 import BeautifulSoup
url = 'https://money.usnews.com' # does NOT work for this URL but works for 'https://www.usatoday.com'
result = requests.get(url)
src = result.content
soup = BeautifulSoup(src, 'html.parser')
print(soup.prettify())
這是因為該網站阻止了蜘蛛。 您可以添加timeout
來檢查它。
result = s.post('https://money.usnews.com', timeout=15)
你得到了:
requests.exceptions.ReadTimeout: HTTPSConnectionPool(host='money.usnews.com', port=443): Read timed out. (read timeout=15)
類似的問題:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.