使用python进行网页抓取（Beautifulsoup）

Question

我刚刚开始使用 python Beautifulsoup和 requests 库以及使用 Pycharm 工具学习网络抓取。

import requests
from bs4 import BeautifulSoup
    
result1 = requests.get("https://www.grainger.com/")
print('result1 is '+ str(result1.status_code))

当我使用这个网站时，它一直在加载，如果我使用google.com它会给出输出。

我想知道为什么我没有得到上述网站的输出？

Answer 1

要从此站点获取状态200 ，请指定User-Agent HTTP 标头：

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:81.0) Gecko/20100101 Firefox/81.0'}

result1 = requests.get("https://www.grainger.com/", headers=headers)

print('result1 is '+ str(result1.status_code))

印刷：

result1 is 200

之所以有效，是因为某些站点会忽略似乎不是来自 Web 浏览器的请求。 默认情况下， requests使用User-Agent python-requests ，因此该网站可以告诉您不是从 Web 浏览器请求该网站。 您的请求挂起并最终超时的原因可能是因为他们的服务器忽略了您的请求。

Answer 2

嗯……有几件事。

该网站可能不存在
您使用的是 http 而不是 https
该站点阻止抓取（发送用户代理标头）
这可能是请求的问题。 尝试使用不同的库。

使用python进行网页抓取（Beautifulsoup）

问题描述

2 个解决方案

解决方案1
1 已采纳 2020-10-16 17:57:47

解决方案2
0 2020-10-16 17:51:44

使用python进行网页抓取（Beautifulsoup）

问题描述

2 个解决方案

解决方案1 1 已采纳 2020-10-16 17:57:47

解决方案2 0 2020-10-16 17:51:44

解决方案1
1 已采纳 2020-10-16 17:57:47

解决方案2
0 2020-10-16 17:51:44