[英]How to scrape the “right” photos from webpage?
从网站上刮下正确的照片:我正在制作一个简单的新闻应用程序。 我有这篇文章,但我需要选择合适的照片。
例如,在:
http://www.politico.com/story/2013/09/government-shutdown-2013-gop-narrative-97521.html
我想抓这个3人照片的网址。 然而,有几个图像要刮。 我怎么知道哪张照片合适。 news.google和flipboard用什么逻辑从文章或任何文章中删除“正确”的照片。
我注意到大多数时候这些照片都是幻灯片。 如何使用Beautiful Soup拍摄这些幻灯片的照片。
该页面在开放图形协议下有一个元标记:
<meta property="og:image" content="http://images.politico.com/global/2013/09/29/mccarthy_blackburn_cruz_ap_ftn_ap_328.jpg"/>
这样可以将网站创建者建议的图像用作预览(这确实是三个人的图片)。
您可以使用BeautifulSoup获取此图像的地址,如下所示:
import urllib2
from bs4 import BeautifulSoup
url = "http://www.politico.com/story/2013/09/government-shutdown-2013-gop-narrative-97521.html"
bs = BeautifulSoup(urllib2.urlopen(url))
metatag = bs.find("meta", {"property": "og:image"})
if metatag is not None:
print metatag["content"]
else:
print "This page has no Open Graph meta image tag"
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.