簡體   English   中英

如何使用python從網站定期抓取RSS feed

[英]How to crawl RSS feeds periodically from websites using python

我想使用筆記本電腦作為我的項目的本地服務器來制作一個新聞聚合器android應用程序。我計划在后端使用apache,php,mysql。我決定將簡單的機器學習技術應用於該應用程序。不僅可以收集文章,還可以按主題對文章進行分類。

我已經實現了基本的Scikit-learn Naive Bayes classifier 我想知道如何在一段時間內自動爬網和存儲服務器上多個站點的RSS feed。我應該使用哪種庫或技術來實現此目的?

我建議您使用Python上更常見且更常用的庫來完成此任務,並使用Cron或Windows Task Scheduler(根據要使用的OS)運行腳本。

在線搜索錯誤/教程時,使用公共庫將使您輕松獲得支持,閱讀出色的文檔或查找許多頁面。

我用於常規抓取和RSS的庫是:

這是一個簡單而最少的示例,它使用BeautifulSoup提取當前以太坊的價值,從而抓取了一個網站:

import urllib2
from bs4 import BeautifulSoup

opener = urllib2.build_opener()
opener.addheaders = [('User-Agent', 'Mozilla/5.0')]
page = opener.open('https://ethereumprice.org/')
soup = BeautifulSoup(page, "lxml")
div = soup.find('span', id='ep-price')
ethereum_rate = div.contents[0]

print ethereum_rate

這是一個使用FeedParser的簡單示例:

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                       "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

print feed

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM