如何使用python從網站定期抓取RSS feed

Question

我想使用筆記本電腦作為我的項目的本地服務器來制作一個新聞聚合器android應用程序。我計划在后端使用apache，php，mysql。我決定將簡單的機器學習技術應用於該應用程序。不僅可以收集文章，還可以按主題對文章進行分類。

我已經實現了基本的Scikit-learn Naive Bayes classifier 。 我想知道如何在一段時間內自動爬網和存儲服務器上多個站點的RSS feed。我應該使用哪種庫或技術來實現此目的？

Answer 1

我建議您使用Python上更常見且更常用的庫來完成此任務，並使用Cron或Windows Task Scheduler（根據要使用的OS）運行腳本。

在線搜索錯誤/教程時，使用公共庫將使您輕松獲得支持，閱讀出色的文檔或查找許多頁面。

我用於常規抓取和RSS的庫是：

Urllib2或請求（獲取互聯網頁面）
BeautifulSoup （用於從HTML和XML文件中提取數據）
FeedParser （用於處理RSS feed）

這是一個簡單而最少的示例，它使用BeautifulSoup提取當前以太坊的價值，從而抓取了一個網站：

import urllib2
from bs4 import BeautifulSoup

opener = urllib2.build_opener()
opener.addheaders = [('User-Agent', 'Mozilla/5.0')]
page = opener.open('https://ethereumprice.org/')
soup = BeautifulSoup(page, "lxml")
div = soup.find('span', id='ep-price')
ethereum_rate = div.contents[0]

print ethereum_rate

這是一個使用FeedParser的簡單示例：

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                       "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

print feed

如何使用python從網站定期抓取RSS feed

問題描述

1 個解決方案

解決方案1
0 已采納 2018-03-22 12:49:17

如何使用python從網站定期抓取RSS feed

問題描述

1 個解決方案

解決方案1 0 已采納 2018-03-22 12:49:17

解決方案1
0 已采納 2018-03-22 12:49:17