繁体   English   中英

用于python的网络爬虫的数据库?

[英]Database for web crawler in python?

您好,我是用python编写的网络爬虫,用于从nytimes.com等新闻网站中提取新闻报道。 我想知道什么可以用作该项目的后端数据库?

提前致谢!

使用CouchDB,MongoDB或SimpleDB等文档数据库可能是一个很棒的项目。

MongoDB有一个托管解决方案: http : //mongohq.com Python(Pymongo)有一个绑定

如果要在Amazon Web Services上托管SimpleDB,则它是一个不错的选择

CouchDB是来自Apache Foundation的开源软件包。

就我个人而言,我喜欢PostGreSQL-但是其他免费的DB,例如MySql (或者,如果您的数据量非常小-最多几个GB-甚至Python附带SQLite )也可以。

我认为数据库本身可能是像这样的Web爬虫更容易的方面之一。

如果期望读取或写入数据库的高负载(例如,如果您打算同时运行多个搜寻器),则您将希望转向MySql的方向,否则像Sqlite这样的东西可能就可以了。

你可以看看火鸟

Firebird python驱动程序由核心团队开发

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM