[英]How to collect all feeds though feedparser in python?
我正在嘗試使用 feedparser 從reuters.com
獲取 RSS 提要。 我訪問了鏈接http://in.reuters.com/tools/rss
以獲取 rss 提要的鏈接,例如http://feeds.reuters.com/reuters/INtopNews
。 當我使用feedparser
在 python 中實現代碼時,我只得到大約 10 個帖子,如下所示:
import feedparser
feeds = feedparser.parse('http://feeds.reuters.com/Reuters/worldNews')
for feed in feeds['entries']:
print(feed['title'])
但是,如果我在www.feedreader.com
上可視化相同的鏈接, www.feedreader.com
當我附加鏈接並向下滾動時,我可以找到更多帖子。 如何在 python 的feedparser
中獲取所有這些 RSS 帖子?
您只能從路透社提要中獲得 10 個項目的原因是提要包含的全部內容。 大多數 RSS 提要只有最新的項目,而不是所有項目都可以追溯到過去。 feedparser 庫讀取當前提要中的內容。
您的代碼示例中的路透社提要包含 10 個項目。
當諸如 Feedreader 之類的 RSS 閱讀器在您向下滾動時顯示的項目多於該數量時,那是因為閱讀器保存了不再存在於提要中的舊項目。 基於 Web 的 RSS 閱讀器通常以這種方式歸檔項目。
正如 rcade 提到的,大多數 RSS 提要只涵蓋最近的項目,但是可以每天(甚至每小時)收集並使用它。 如果你想要類似的東西,你可以從這里使用 Python rssarchive 庫: https ://pypi.org/project/rssarchive/
#!/usr/bin/env python
import rssarchive as ra
newra = ra.RssArchive(CONFIG_TEST_MODE=True,CONFIG_FULL_TEXT_MODE = False)
newra.batch_save_rss()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.