如何從網站下載嵌套標簽中的圖像

Question

我想下載img標簽中的所有圖像，這些圖像嵌套在如下內容中：

<div id="onlive">
  <div>
    <section class="class1">
      <ul class=="class2">
        <li>
          <div class="class3">
            <div class="class4 class4-001" video_id="001">
              <div class="class5">
                <img src="https://...">
              </div>
            </div>
          </div>
        </li>
        <li>
          <div class="class3">
            <div class="class4 class4-002" video_id="002">
              <div class="class5">
                <img src="https://...">
              </div>
            </div>
          </div>
        </li>
        <li>...</li>
        <li>...</li>
        <li>...</li>
      </ul>
    </section>
  </div>
</div>

在這個例子中，應該有 5 張圖片要下載並保存在“images”目錄中。 另外，我想使用“video-id”作為每個圖像的名稱。

這是我的代碼。 它沒有錯誤，但沒有得到任何圖像：

import requests
from bs4 import BeautifulSoup
import os
import logging
import urllib.request

url = "https://www...com/onlive" 
page = requests.get(url)

soup = BeautifulSoup(page.text, "html.parser")

links = []
for img in soup.find_all('img'):
    link = img.get('src')
    links.append(link)

for i in range(len(links)):
    filename = 'images/img{}.jpg'.format(i)
    urllib.request.urlretrieve(links[i], filename)

Answer 1

嚴格基於問題中的示例 html ，這應該適用於代碼的相關部分：

videos = """your html above, fixed""" #the html you have there is malformed
soup = bs(videos,'lxml')
targets = soup.select('div[class*="class4"]')
for target in targets:
  i= target.attrs['video_id']
  link = target.select_one('img').attrs['src']
  filename = f'images/img{i}.jpg'
  print(filename,link)

Output：

images/img001.jpg https://...
images/img002.jpg https://...

如何從網站下載嵌套標簽中的圖像

問題描述

1 個解決方案

解決方案1
0 2020-04-21 16:02:33

如何從網站下載嵌套標簽中的圖像

問題描述

1 個解決方案

解決方案1 0 2020-04-21 16:02:33

解決方案1
0 2020-04-21 16:02:33