簡體   English   中英

什么ruby gem提供從網頁中提取內容的功能?

[英]What ruby gem provides the function to extract the content from web pages?

我正在為我的ruby on rails項目搜索ruby gem,用於從網頁中提取內容。 我找到了ruby-readability gem ,但它不支持多篇文章。 你能推薦一個也支持多頁文章提取的寶石嗎?

或者我如何編碼識別文章上多個網站的能力?

謝謝

您可以將像Pismo這樣的高級寶石與Mechanize結合使用,迭代瀏覽每個頁面並連接文章正文。 為此,您需要知道哪些鏈接將您帶到下一頁。 谷歌正在推動采用基於rel屬性的約定

<a href="blog-post?page=2" rel='next'>next</a>

這是一個非常粗略的ruby代碼草案:

agent = WWW::Mechanize.new
agent.get("http://www.awesomeblog.com/amazing-article")

scraper.text = MyScraper.new(:text => Pismo::Document.new(agent.url))

while agent.page.link_with("rel='next'").click do
  pismo_doc = Pismo::Document.new(agent.url)
  scraper.text << pismo_doc.lede
end

scraper.save!

這是偽代碼/ wilde猜測(我不知道機械化的API)但你得到了一般的想法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM