如何像Facebook一样从网页中提取图像？

Question

如果我在墙上插入这样的链接：

http://blog.bonsai.tv/news/il-nuovo-vezzo-della-lega-nord-favorire-i-lombardi-alluniversita/

然后facebook提取帖子中的图像，而不是网页中的第一张图像（例如，不是图像徽标或其他小图像）！

脸书怎么办？

Answer 1

嗯，没有关于他们使用的算法的更多信息就很难说。

但是，通过查看页面的源代码，您可以看到，虽然Bossi的图像不是页面中的第一张图像，但它是divs中的“ page_content”和“ post_content”中的第一张图像。 也许Facebook知道博客系统（在本例中为Wordpress）使用的HTML ID，并使用这些ID查找实际上是页面内容一部分的第一张图像。

那实际上是一个好主意，本质上是“语义网”的一种实现。

Answer 2

正如其他人所说，我们不知道在没有任何相关元数据的情况下Facebook如何决定选择什么（尽管Sleske的猜测似乎是合理的；我也想他们会看第一张大图），但是您可以避免这种情况遵循正确的路线，并通过使用“ 开放图谱协议”标签简单地为Facebook（和类似服务）提供有关页面的附加元数据，例如，如果您要指定用于Facebook之类的特定图像，则将其包括在您的脑海中标签：

<meta property="og:image" content="<your image URL>" />

LinkedIn，Google +和许多其他公司也使用OGP。

如果您使用的是Wordpress，则可以使用打开的图形插件控制这些标签。 其他系统可以手动执行此操作，也可以通过自己的插件执行此操作。

Answer 3

我可以想象Facebook搜寻器可以识别实际的内容部分，并从中选择图片。 Safari Reader功能使用了类似的功能。 可能最有用的软件是Wordpress，这是最流行的博客软件。 对于Facebook来说，添加对该软件的特定支持是一项捷径。

Answer 4

我的猜测是，facebook建立了一些算法，可将实际内容与html页面中的其他数据区分开。 在查看您提供的页面时，这很容易，因为包含页面内容的html元素具有id =“ page_content”，这是不言而喻的。

如何像Facebook一样从网页中提取图像？

问题描述

4 个解决方案

解决方案1
1 2010-09-28 14:02:31

解决方案2
1 2012-02-13 11:42:04

解决方案3
0 2010-09-28 13:59:46

解决方案4
0 2010-09-28 14:07:35

如何像Facebook一样从网页中提取图像？

问题描述

4 个解决方案

解决方案1 1 2010-09-28 14:02:31

解决方案2 1 2012-02-13 11:42:04

解决方案3 0 2010-09-28 13:59:46

解决方案4 0 2010-09-28 14:07:35

解决方案1
1 2010-09-28 14:02:31

解决方案2
1 2012-02-13 11:42:04

解决方案3
0 2010-09-28 13:59:46

解决方案4
0 2010-09-28 14:07:35