繁体   English   中英

如何从网站上抓取完整尺寸的图像?

[英]How do I scrape full-sized images from a website?

我试图从这两个网站获取牛皮癣患者的临床图像用于研究目的:

http://www.dermis.net/dermisroot/en/31346/diagnose.htm

http://dermatlas.med.jhmi.edu/derm/

对于第一个站点,我尝试用firefox保存页面,但它只保存缩略图而不是全尺寸图像。 我能够使用名为“downloadthemall”的firefox插件访问全尺寸图像,但它将每个图像保存为新的html页面的一部分,我不知道有任何方法只提取图像。

我也试过上大学的一台Linux机器并使用wget镜像网站,但我无法让它工作,我仍然不确定为什么。

因此,我想知道编写一个简短的脚本(或任何方法最简单)是否容易(a)获得链接到第一个网站的全尺寸图像,以及(b)获取所有全尺寸图像文件名中包含“牛皮癣”的第二个站点。

我已经编程了几年,但是没有关于Web开发的经验,并且会感谢任何有关如何执行此操作的建议。

为什么不使用wget以递归方式从域中下载图像? 这是一个例子:

wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://www.domain.com

这是手册页: http//www.gnu.org/software/wget/manual/wget.html

试试HTTrack网站复印机 - 它将加载网站上的所有图像。 您也可以尝试http://htmlparser.sourceforge.net/ 如果您在org.htmlparser.parserapplications.SiteCapturer中指定它,它将使用资源获取网站

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM