繁体   English   中英

需要帮助从使用 bs4 和 python 的幻灯片中抓取图像

[英]Need help scraping images from a slideshow with bs4 & python

我正在尝试从 Craigslist 获取废料列表信息,不幸的是我似乎无法获取图像,因为它们是幻灯片。

import requests
from bs4 import BeautifulSoup as soup

url = "https://newyork.craigslist.org/search/sss"
r = requests.get(url)
souped = soup(r.content, 'lxml')

由于图像甚至不在请求的 html 文件中,我是否需要以某种方式动态加载页面或其他内容。 如果可以,我只能将它保留在 python 中,我不想要任何其他依赖项。 在此先感谢,对此很陌生,因此任何帮助都会有所帮助。

查找带有类result-image gallery的 A 标签。 这些标签中的每一个都有一个data-ids属性,该属性保留了图像文件名称的一部分。

<a href="https://newyork.craigslist.org/mnh/fuo/d/new-york-city-3-piece-shaped-ikea-couch/6812749499.html" class="result-image gallery" data-ids="1:00707_iRUU5VKwkWi,1:00H0H_6AIBqK2iQDU">
           ....
</a>

现在,如果您想获取 url,首先获取该属性并解析部分图像的名称(在该示例中, 00707_iRUU5VKwkWi00H0H_6AIBqK2iQDU )。

现在您可以使用主机和后缀( _300x300 )和扩展名构建网址:

https://images.craigslist.org/00707_iRUU5VKwkWi_300x300.jpg
https://images.craigslist.org/00H0H_6AIBqK2iQDU_300x300.jpg

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM