为什么我的 urllib.request 返回 http 错误 403？

Question

我正在尝试制作一个使用 python 从站点下载一系列产品图片的程序。 该网站以某种 url 格式https://www.sitename.com/XYZabcde存储其图像，其中 XYZ 是代表产品品牌的三个字母，abcde 是 00000 到 30000 之间的一系列数字。这是我的代码：

import urllib.request

def down(i, inp):
    full_path = 'images/image-{}.jpg'.format(i)
    url = "https://www.sitename.com/{}{}.jpg".format(inp,i)
    urllib.request.urlretrieve(url, full_path)

    print("saved")
    return None

inp = input("brand :" )

i = 20100

while i <= 20105:
    x = str(i)
    y = x.zfill(5)
    z = "https://www.sitename.com/{}{}.jpg".format(inp,y)
    print(z)
    down(y, inp)
    i += 1

使用我编写的代码，我可以从中成功下载一系列我知道存在的图片，例如从 20100 年到 20105 年的品牌 RVL 将成功下载这六张图片。 但是，当我扩大 while 循环以包含我不知道的链接时会给我一个图像，我收到此错误代码：

Traceback (most recent call last):
  File "c:/Users/euan/Desktop/university/programming/Python/parser/test - Copy.py", line 20, in <module>
    down(y, inp)
  File "c:/Users/euan/Desktop/university/programming/Python/parser/test - Copy.py", line 6, in down
    urllib.request.urlretrieve(url, full_path)
  File "C:\Users\euan\AppData\Local\Programs\Python\Python38\lib\urllib\request.py", line 247, in urlretrieve
    with contextlib.closing(urlopen(url, data)) as fp:
  File "C:\Users\euan\AppData\Local\Programs\Python\Python38\lib\urllib\request.py", line 222, in urlopen
    return opener.open(url, data, timeout)
  File "C:\Users\euan\AppData\Local\Programs\Python\Python38\lib\urllib\request.py", line 531, in open
    response = meth(req, response)
  File "C:\Users\euan\AppData\Local\Programs\Python\Python38\lib\urllib\request.py", line 640, in http_response
    response = self.parent.error(
  File "C:\Users\euan\AppData\Local\Programs\Python\Python38\lib\urllib\request.py", line 569, in error
    return self._call_chain(*args)
  File "C:\Users\euan\AppData\Local\Programs\Python\Python38\lib\urllib\request.py", line 502, in _call_chain
    result = func(*args)
  File "C:\Users\euan\AppData\Local\Programs\Python\Python38\lib\urllib\request.py", line 649, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden

我能做些什么来检查和避免任何会产生这个结果的网址？

Answer 1

因此，您无法提前知道您无权访问哪些 URL，但您可以使用 try-except 来包围下载：

import urllib.request, urllib.error

...

def down(i, inp):
    full_path = 'images/image-{}.jpg'.format(i)
    url = "https://www.sitename.com/{}{}.jpg".format(inp,i)
    try:
        urllib.request.urlretrieve(url, full_path)
        print("saved")
    except urllib.error.HTTPError as e:
        print("failed:", e)


    return None

在这种情况下，它只会在无法获取 URL 时打印例如“失败：HTTP 错误 403：禁止”，并且程序将继续。

为什么我的 urllib.request 返回 http 错误 403？

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-10-11 19:30:39

为什么我的 urllib.request 返回 http 错误 403？

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-10-11 19:30:39

解决方案1
0 已采纳 2020-10-11 19:30:39