[英]Need help scraping images from a slideshow with bs4 & python
我正在尝试从 Craigslist 获取废料列表信息,不幸的是我似乎无法获取图像,因为它们是幻灯片。
import requests
from bs4 import BeautifulSoup as soup
url = "https://newyork.craigslist.org/search/sss"
r = requests.get(url)
souped = soup(r.content, 'lxml')
由于图像甚至不在请求的 html 文件中,我是否需要以某种方式动态加载页面或其他内容。 如果可以,我只能将它保留在 python 中,我不想要任何其他依赖项。 在此先感谢,对此很陌生,因此任何帮助都会有所帮助。
查找带有类result-image gallery
的 A 标签。 这些标签中的每一个都有一个data-ids
属性,该属性保留了图像文件名称的一部分。
<a href="https://newyork.craigslist.org/mnh/fuo/d/new-york-city-3-piece-shaped-ikea-couch/6812749499.html" class="result-image gallery" data-ids="1:00707_iRUU5VKwkWi,1:00H0H_6AIBqK2iQDU">
....
</a>
现在,如果您想获取 url,首先获取该属性并解析部分图像的名称(在该示例中, 00707_iRUU5VKwkWi
和00H0H_6AIBqK2iQDU
)。
现在您可以使用主机和后缀( _300x300
)和扩展名构建网址:
https://images.craigslist.org/00707_iRUU5VKwkWi_300x300.jpg
https://images.craigslist.org/00H0H_6AIBqK2iQDU_300x300.jpg
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.