如何从网页上抓取“正确”的照片？

Question

从网站上刮下正确的照片：我正在制作一个简单的新闻应用程序。 我有这篇文章，但我需要选择合适的照片。

例如，在：

http://www.politico.com/story/2013/09/government-shutdown-2013-gop-narrative-97521.html

我想抓这个3人照片的网址。 然而，有几个图像要刮。 我怎么知道哪张照片合适。 news.google和flipboard用什么逻辑从文章或任何文章中删除“正确”的照片。

我注意到大多数时候这些照片都是幻灯片。 如何使用Beautiful Soup拍摄这些幻灯片的照片。

Answer 1

该页面在开放图形协议下有一个元标记：

<meta property="og:image" content="http://images.politico.com/global/2013/09/29/mccarthy_blackburn_cruz_ap_ftn_ap_328.jpg"/>

这样可以将网站创建者建议的图像用作预览（这确实是三个人的图片）。

您可以使用BeautifulSoup获取此图像的地址，如下所示：

import urllib2
from bs4 import BeautifulSoup

url = "http://www.politico.com/story/2013/09/government-shutdown-2013-gop-narrative-97521.html"
bs = BeautifulSoup(urllib2.urlopen(url))

metatag = bs.find("meta", {"property": "og:image"})
if metatag is not None:
    print metatag["content"]
else:
    print "This page has no Open Graph meta image tag"

如何从网页上抓取“正确”的照片？

问题描述

1 个解决方案

解决方案1
4 2013-09-30 17:04:52

如何从网页上抓取“正确”的照片？

问题描述

1 个解决方案

解决方案1 4 2013-09-30 17:04:52

解决方案1
4 2013-09-30 17:04:52