簡體   English   中英

如何檢索博客文章/新聞文章的主要圖像?

[英]How can I retrieve the main image of a blog post/news article?

我有一個新聞聚合器Newzupp ,我想修改。 現在我只是顯示新聞故事的標題,我將它們鏈接到他們的網址。

我打算通過使用圖像+標題而不是普通標題來使其更加圖形化。 我想知道如何獲得每篇文章的主要圖像(有點類似於谷歌新聞)。

我能想到的一種方法是我可以剝離所有圖像並顯示指向同一篇文章的圖像。 但我認為這不會有效。 有沒有其他方法這樣做?


我找到了解決方案。

  1. 獲取網址[html / xml]的內容
  2. 使用hpricot刮取內容
  3. 找到所有帶標簽“img”的元素
  4. 做一些研究,找出它們中的哪一個是主顯示圖像。 [如果是Wired.com的rss feed的第6張圖片]

我仍然認為這是非常低效的。 我想知道Google新聞等服務如何抓取網站/博客並顯示相關圖片。

也許你可以按照DOM層次結構中的圖像大小或位置進行過濾/排序(即最接近正文頂部/緊跟在h1標記之后)。

廣告主機黑名單怎么樣,你會忽略圖像?

一般來說,廣告是在其他地方托管,而與故事相關的圖像托管在同一個域中,也許您可​​以過濾那些與網站本身具有相同基本網址的圖像的頁面。

為什么不直接將所有抓取的圖像(使用hpricot / nokogiri)轉換為方形縮略圖圖像(使用rmagick或類似的或僅在服務器端調整它們)並將這些圖像分組到主題正文下方的一個DIV中。 然后,您可以使用帶幻燈片的燈箱僅在用戶點擊它們時顯示實際圖像。 這樣它看起來更加圖形化,仍然不會破壞您網站的外觀。 找到最相關的圖像很棘手。

您還可以嘗試在頁面上搜索OpenGraph元標記。 大多數新聞網站都使用og:image屬性來指定文章的主圖像。

例:

<meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" />

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM