[英]NodeJS, MongoDB, Mongoose Save Large Data Non-Blocking
我目前正在使用NodeJS,ExpressJS(带有EJS),MongoDB和Mongoose开发一个简单的应用程序。 以下是我所面临的问题的简要介绍,并寻求一些建议
脚本
1)在特定事件中,将调用使用SOAP的Web服务并提取数据。
2)API一次返回大约一百万行数据
3)使用mongoose将提取的数据保存到MongoDB中
码
数据库模型-(myModel.js)
var mongoose = require('mongoose')
var Schema = mongoose.Schema
var prodSchema = new Schema({
rowIndex: {
type: Number,
},
prodId: {
type: String,
},
prodDesc: {
type: String,
},
prodCategory: {
type: String,
}
});
module.exports = mongoose.model('Product', prodSchema);
将附加到控制器的数据-(app.js)
/**
* Module dependencies.
*/
/* Express */
var express = require('express');
var http = require('http');
var path = require('path');
var fs = require('fs');
var bcrypt = require('bcrypt-nodejs');
var moment = require('moment');
var os = require('os');
var config = require('./config');
/* Models */
var Product = require('./models/myModel');
var soap = require('soap');
var app = express();
/// Include the express body parser
app.configure(function () {
app.use(express.bodyParser());
});
/* all environments */
app.engine('.html', require('ejs').__express);
app.set('port', process.env.PORT || 3000);
app.set('views', path.join(__dirname, 'views'));
app.set('view engine', 'html');
app.use(express.favicon());
app.use(express.logger('dev'));
app.use(express.json());
app.use(express.urlencoded());
app.use(express.methodOverride());
app.use(express.cookieParser('your secret here'));
app.use(express.session());
app.use(app.router);
app.use(express.static(path.join(__dirname, 'public')));
/* DB Connect */
mongoose.connect( 'mongodb://localhost:27017/productDB', function(err){
if ('development' == app.get('env')) {
if (err) throw err;
console.log('Successfully connected to MongoDB globally');
}
} );
/* Close DB gracefully */
var gracefulExit = function() {
mongoose.connection.close(function () {
console.log('Mongoose default connection with DB is disconnected through app termination');
process.exit(0);
});
}
// If the Node process ends, close the Mongoose connection
process.on('SIGINT', gracefulExit).on('SIGTERM', gracefulExit);
/* development only */
if ('development' == app.get('env')) {
app.use(express.errorHandler());
}
/********************************************************/
/***** GET *****/
/********************************************************/
app.get('/getproducts', getProducts);
/* If GET on http://localhost:3000/getproducts the call the below function to get data from web service */
function getProducts(req, res){
var post = req.body;
var url = 'http://www.example.com/?wsdl';
soap.createClient(url, function(err, client) {
client.setSecurity(new soap.BasicAuthSecurity(User, Pass));
client.someMethod(function(err, result) {
var product = result.DATA.item;
for(var i=0; i<product.length; i++) {
var saveData = new Product({
rowIndex: product.ROW_INDEX,
prodId: product.PROD_ID,
prodDesc: product.PROD_DESC,
prodCategory: product.PROD_CATEGORY,
});
saveData.save();
}
});
});
}
/* Create Server */
http.createServer(app).listen(app.get('port'), function(){
console.log('Express server listening on port ' + app.get('port') + ' in ' + app.get('env') + ' mode');
});
从Web服务返回的数据
[ { ROW_INDEX: '1',
PROD_ID: 'A1',
PROD_DESC: 'New product',
PROD_CATEGORY: 'Clothes' },
{ ROW_INDEX: '2',
PROD_ID: 'A2',
PROD_DESC: 'New product 2',
PROD_CATEGORY: 'Clothes' },
{ ROW_INDEX: '3',
PROD_ID: 'A3',
PROD_DESC: 'New product 3',
PROD_CATEGORY: 'shoes' },
.
.
. millions of rows
]
需要的问题/建议
我面临的问题是,直到所有数据都保存到数据库中,服务器才被阻塞,并且没有其他功能(例如为并发用户呈现页面或保存更多数据)被执行。
我正在创建一个视图,该视图也将返回保存的数据。 这些又将是数百万行的数据-但这一次是从MongoDB获取的,并传递给EJS中的视图。
感谢您为优化并行运行性能和计算大量数据的性能提供的帮助/建议。
您的保存不是异步的。 该行被阻止:
saveData.save();
而是异步保存模型(保存完成后,传递一个函数以运行):
function getProducts(req, res){
var post = req.body;
var url = 'http://www.example.com/?wsdl';
soap.createClient(url, function(err, client) {
client.setSecurity(new soap.BasicAuthSecurity(User, Pass));
client.someMethod(function(err, result) {
var product = result.DATA.item;
for(var i=0; i<product.length; i++) {
var saveData = new Product({
rowIndex: product.ROW_INDEX,
prodId: product.PROD_ID,
prodDesc: product.PROD_DESC,
prodCategory: product.PROD_CATEGORY,
});
saveData.save( function (err, data) {
// any statements here will run when this row is saved,
// but the loop will continue onto the next product without
// waiting for the save to finish
});
}
});
});
res.send("Getting the data! You can browse the site while you wait...");
}
这样,整个循环将立即(虚拟)运行,并且数据将在输入时得到保存。同时,您的节点进程可以自由处理其他Web请求。
听起来像是数据复制问题,因为您的数据没有在多个节点上复制。 我建议检查一下您的MongoDB的设置。 复制将提高服务的可用性,一个节点可响应初始请求,而其他节点则可保留相同数据的副本以响应新的读/写操作。
如果所有读取均为百万行读取,则可能需要几个节点。
一个快速的Google提出了有关复制的MongoDB教程。 开篇段落指出“复制提供冗余并增加数据可用性。”
http://docs.mongodb.org/manual/core/replication-introduction/
您可能想学习如何使用Streams
。
创建一个writable stream
,当它的_write()
与某些数据一起调用时,将数据插入到mongodb中。 缓冲数据并小批量插入将更好。
创建一个transform stream
,将xml块(到达时)解析为json对象。 如果可以在npm
上获得现成的流解析器,那么您将很幸运。
获得SOAP响应作为流(一百万个项目,但仍然是一个响应流),并使用管道:soap响应->转换->写入。 这可能需要一些工作。
监听最后一个流的finish
和所有流的error
,当第一次发出finish
或error
时,操作结束。 拆除管设置。( unpipe
)
此外,可以暂停和恢复流,因此您可能希望使用此功能来检查数据流。
上面的方法不会提高服务器的处理速度,只是有助于保持服务器的响应速度。 如果您想真正扩展规模,请构建一个专用的xml集群以用于db流服务。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.