![](/img/trans.png)
[英]Scrapy - How to crawl website & store data in Microsoft SQL Server database?
[英]How to crawl a website/extract data into database with python?
我想构建一个webapp来帮助我大学的其他学生创建他们的日程安排。 为此,我需要抓取主时间表(一个巨大的html页面)以及每个课程的详细描述链接到数据库中,最好是在python中。 另外,我需要登录才能访问数据。
requests
。
lxml
用于抓取数据。 如果你想使用强大的刮擦框架,那就是Scrapy
。 它也有一些很好的文档。 根据你的任务,这可能有点矫枉过正。
我喜欢使用BeatifulSoup来提取html数据
它就像这样简单:
from BeautifulSoup import BeautifulSoup
import urllib
ur = urllib.urlopen("http://pragprog.com/podcasts/feed.rss")
soup = BeautifulSoup(ur.read())
items = soup.findAll('item')
urls = [item.enclosure['url'] for item in items]
为此目的,有一个非常有用的工具叫做web-harvest链接到他们的网站http://web-harvest.sourceforge.net/我用它来抓取网页
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.