[英]What ruby gem provides the function to extract the content from web pages?
我正在為我的ruby on rails項目搜索ruby gem,用於從網頁中提取內容。 我找到了ruby-readability gem ,但它不支持多篇文章。 你能推薦一個也支持多頁文章提取的寶石嗎?
或者我如何編碼識別文章上多個網站的能力?
謝謝
您可以將像Pismo這樣的高級寶石與Mechanize結合使用,迭代瀏覽每個頁面並連接文章正文。 為此,您需要知道哪些鏈接將您帶到下一頁。 谷歌正在推動采用基於rel屬性的約定
<a href="blog-post?page=2" rel='next'>next</a>
這是一個非常粗略的ruby代碼草案:
agent = WWW::Mechanize.new
agent.get("http://www.awesomeblog.com/amazing-article")
scraper.text = MyScraper.new(:text => Pismo::Document.new(agent.url))
while agent.page.link_with("rel='next'").click do
pismo_doc = Pismo::Document.new(agent.url)
scraper.text << pismo_doc.lede
end
scraper.save!
這是偽代碼/ wilde猜測(我不知道機械化的API)但你得到了一般的想法。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.