簡體   English   中英

使用Python請求從URL保存圖像-URL類型錯誤

[英]Saving Image from URL using Python Requests - URL type error

使用以下代碼:

    with open('newim','wb') as f:
        f.write(requests.get(repr(url)))

網址在哪里:

    url = ''

我收到以下錯誤:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Python33\lib\site-packages\requests\api.py", line 69, in get
    return request('get', url, params=params, **kwargs)
  File "C:\Python33\lib\site-packages\requests\api.py", line 50, in request
    response = session.request(method=method, url=url, **kwargs)
  File "C:\Python33\lib\site-packages\requests\sessions.py", line 465, in request
    resp = self.send(prep, **send_kwargs)
  File "C:\Python33\lib\site-packages\requests\sessions.py", line 567, in send
    adapter = self.get_adapter(url=request.url)
  File "C:\Python33\lib\site-packages\requests\sessions.py", line 641, in get_adapter
    raise InvalidSchema("No connection adapters were found for '%s'" % url)

我看過其他帖子,乍看之下似乎是一個類似的問題,但我沒有運氣,只是添加了“ https://”或類似的內容...我很想避免這樣做在webdriver + Autoit之類的程序中,因為我必須對數千張圖像進行類似的練習。

這是以base64編碼的圖像。 在下面引用URL:“ base64等於圖像本身的文本(字符串)表示形式”。

請閱讀以下內容以獲得詳細說明: http : //www.stoimen.com/blog/2009/04/23/when-you-should-use-base64-for-images/

為了使用它們,您必須實現base64解碼器。 幸運的是,SO已經為您提供了解決方法:

Python base64數據解碼

您對嵌入式圖像概念的理解似乎有問題。 實際上,您發布的url是從上下文菜單中選擇“查看圖像”“復制圖像位置” (或類似的名稱,具體取決於瀏覽器)時瀏覽器返回的內容,並正式稱為數據URI

不是一個HTTP URL指向一個圖片,你不能用它來從任何服務器檢索的實際圖像:這正是requests錯誤消息指出。


那么,我們如何得到這些圖片? 以下腳本將處理此任務:

import requests
from lxml import html
import binascii as ba

i = 0
url="<Page URL goes here>" #Ex: http://server/dir/images.html
page = requests.get(url)
struct = html.fromstring(page.text)
images = struct.xpath('//img/@src')

for img in images:
    i += 1
    ext = img.partition('data:image/')[2].split(';')[0]
    with open('newim'+str(i)+'.'+ext,'wb') as f:
        f.write(ba.a2b_base64(img.partition('base64,')[2]))

print("Done")

要運行它,您將需要與requests一起安裝lxml庫,該庫可在此處找到。


以下是腳本功能的簡短描述:

首先,它從服務器請求url ,然后在獲得服務器的響應后,將其存儲在Response對象page )中。

然后,它利用來自lxml的 html.fromstring()page的“文本化”內容轉換為樹形結構,可以通過使用XPath語法的命令來對其進行處理,如下所示: images = struct.xpath('//img/@src')

結果是一個list其中包含頁面中每個圖像的src屬性的內容。 在這種情況下(嵌入式圖像),這些是數據URI。

然后,對於列表中的每個圖像,它首先使用partition()split()獲取圖像類型(將用作newim的擴展名split()並將其存儲在ext 然后,它將base64編碼的數據轉換為二進制數據(使用binascii模塊中的a2b_base64() )並將輸出寫入文件。


作為一個小型演示,請將此html代碼(例如, images.html )保存在服務器中的某個位置

<h1>Images</h1>
<img src="" />  
<br />
<img src=""></img>
<br />
<img src=""/>

並在腳本中指向它: requests.get("http://yourserver/somedir/images.html")

運行腳本時,您將獲得以下3張圖像: 在此處輸入圖片說明 在此處輸入圖片說明 在此處輸入圖片說明 ,分別命名為newim1.pngnewim2.pngnewim3.jpg


提醒一下,請注意,此腳本(以當前形式)將僅處理嵌入式圖像 如果還要處理普通的鏈接圖像,則必須進行相應的修改(但這並不困難)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM