繁体   English   中英

如何从网页上抓取“正确”的照片?

[英]How to scrape the “right” photos from webpage?

从网站上刮下正确的照片:我正在制作一个简单的新闻应用程序。 我有这篇文章,但我需要选择合适的照片。

例如,在:

http://www.politico.com/story/2013/09/government-shutdown-2013-gop-narrative-97521.html

我想抓这个3人照片的网址。 然而,有几个图像要刮。 我怎么知道哪张照片合适。 news.google和flipboard用什么逻辑从文章或任何文章中删除“正确”的照片。

我注意到大多数时候这些照片都是幻灯片。 如何使用Beautiful Soup拍摄这些幻灯片的照片。

该页面在开放图形协议下有一个元标记:

<meta property="og:image" content="http://images.politico.com/global/2013/09/29/mccarthy_blackburn_cruz_ap_ftn_ap_328.jpg"/> 

这样可以将网站创建者建议的图像用作预览(这确实是三个人的图片)。

您可以使用BeautifulSoup获取此图像的地址,如下所示:

import urllib2
from bs4 import BeautifulSoup

url = "http://www.politico.com/story/2013/09/government-shutdown-2013-gop-narrative-97521.html"
bs = BeautifulSoup(urllib2.urlopen(url))

metatag = bs.find("meta", {"property": "og:image"})
if metatag is not None:
    print metatag["content"]
else:
    print "This page has no Open Graph meta image tag"

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM