繁体   English   中英

如何像Facebook一样从网页中提取图像?

[英]How to extract images from a webpage as Facebook does?

如果我在墙上插入这样的链接:

http://blog.bonsai.tv/news/il-nuovo-vezzo-della-lega-nord-favorire-i-lombardi-alluniversita/

然后facebook提取帖子中的图像,而不是网页中的第一张图像(例如,不是图像徽标或其他小图像)!

脸书怎么办?

嗯,没有关于他们使用的算法的更多信息就很难说。

但是,通过查看页面的源代码,您可以看到,虽然Bossi的图像不是页面中的第一张图像,但它是divs中的“ page_content”和“ post_content”中的第一张图像。 也许Facebook知道博客系统(在本例中为Wordpress)使用的HTML ID,并使用这些ID查找实际上是页面内容一部分的第一张图像。

那实际上是一个好主意,本质上是“语义网”的一种实现。

正如其他人所说,我们不知道在没有任何相关元数据的情况下Facebook如何决定选择什么(尽管Sleske的猜测似乎是合理的;我也想他们会看第一张大图),但是您可以避免这种情况遵循正确的路线,并通过使用“ 开放图谱协议”标签简单地为Facebook(和类似服务)提供有关页面的附加元数据,例如,如果您要指定用于Facebook之类的特定图像,则将其包括在您的脑海中标签:

<meta property="og:image" content="<your image URL>" />

LinkedIn,Google +和许多其他公司也使用OGP。

如果您使用的是Wordpress,则可以使用打开的图形插件控制这些标签。 其他系统可以手动执行此操作,也可以通过自己的插件执行此操作。

我可以想象Facebook搜寻器可以识别实际的内容部分,并从中选择图片。 Safari Reader功能使用了类似的功能 可能最有用的软件是Wordpress,这是最流行的博客软件。 对于Facebook来说,添加对该软件的特定支持是一项捷径。

我的猜测是,facebook建立了一些算法,可将实际内容与html页面中的其他数据区分开。 在查看您提供的页面时,这很容易,因为包含页面内容的html元素具有id =“ page_content”,这是不言而喻的。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM