如何通過python中的feedparser收集所有提要？

Question

我正在嘗試使用 feedparser 從reuters.com獲取 RSS 提要。 我訪問了鏈接http://in.reuters.com/tools/rss以獲取 rss 提要的鏈接，例如http://feeds.reuters.com/reuters/INtopNews 。 當我使用feedparser在 python 中實現代碼時，我只得到大約 10 個帖子，如下所示：

import feedparser

feeds = feedparser.parse('http://feeds.reuters.com/Reuters/worldNews')

for feed in feeds['entries']:
    print(feed['title'])

但是，如果我在www.feedreader.com上可視化相同的鏈接， www.feedreader.com當我附加鏈接並向下滾動時，我可以找到更多帖子。 如何在 python 的feedparser中獲取所有這些 RSS 帖子？

Answer 1

您只能從路透社提要中獲得 10 個項目的原因是提要包含的全部內容。 大多數 RSS 提要只有最新的項目，而不是所有項目都可以追溯到過去。 feedparser 庫讀取當前提要中的內容。

您的代碼示例中的路透社提要包含 10 個項目。

當諸如 Feedreader 之類的 RSS 閱讀器在您向下滾動時顯示的項目多於該數量時，那是因為閱讀器保存了不再存在於提要中的舊項目。 基於 Web 的 RSS 閱讀器通常以這種方式歸檔項目。

Answer 2

正如 rcade 提到的，大多數 RSS 提要只涵蓋最近的項目，但是可以每天（甚至每小時）收集並使用它。 如果你想要類似的東西，你可以從這里使用 Python rssarchive 庫： https ://pypi.org/project/rssarchive/

#!/usr/bin/env python
import rssarchive as ra
newra  = ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE = False)
newra.batch_save_rss()

如何通過python中的feedparser收集所有提要？

問題描述

2 個解決方案

解決方案1
3 2018-05-21 21:43:21

解決方案2
0 2020-12-27 10:20:06

如何通過python中的feedparser收集所有提要？

問題描述

2 個解決方案

解決方案1 3 2018-05-21 21:43:21

解決方案2 0 2020-12-27 10:20:06

解決方案1
3 2018-05-21 21:43:21

解決方案2
0 2020-12-27 10:20:06