簡體   English   中英

如何通過python中的feedparser收集所有提要?

[英]How to collect all feeds though feedparser in python?

我正在嘗試使用 feedparser 從reuters.com獲取 RSS 提要。 我訪問了鏈接http://in.reuters.com/tools/rss以獲取 rss 提要的鏈接,例如http://feeds.reuters.com/reuters/INtopNews 當我使用feedparser在 python 中實現代碼時,我只得到大約 10 個帖子,如下所示:

import feedparser

feeds = feedparser.parse('http://feeds.reuters.com/Reuters/worldNews')

for feed in feeds['entries']:
    print(feed['title'])

但是,如果我在www.feedreader.com上可視化相同的鏈接, www.feedreader.com當我附加鏈接並向下滾動時,我可以找到更多帖子。 如何在 python 的feedparser中獲取所有這些 RSS 帖子?

您只能從路透社提要中獲得 10 個項目的原因是提要包含的全部內容。 大多數 RSS 提要只有最新的項目,而不是所有項目都可以追溯到過去。 feedparser 庫讀取當前提要中的內容。

您的代碼示例中的路透社提要包含 10 個項目。

當諸如 Feedreader 之類的 RSS 閱讀器在您向下滾動時顯示的項目多於該數量時,那是因為閱讀器保存了不再存在於提要中的舊項目。 基於 Web 的 RSS 閱讀器通常以這種方式歸檔項目。

正如 rcade 提到的,大多數 RSS 提要只涵蓋最近的項目,但是可以每天(甚至每小時)收集並使用它。 如果你想要類似的東西,你可以從這里使用 Python rssarchive 庫: https ://pypi.org/project/rssarchive/

#!/usr/bin/env python
import rssarchive as ra
newra  = ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE = False)
newra.batch_save_rss()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM