繁体   English   中英

NodeJS,MongoDB,Mongoose可以无阻塞地保存大数据

[英]NodeJS, MongoDB, Mongoose Save Large Data Non-Blocking

我目前正在使用NodeJS,ExpressJS(带有EJS),MongoDB和Mongoose开发一个简单的应用程序。 以下是我所面临的问题的简要介绍,并寻求一些建议

脚本

1)在特定事件中,将调用使用SOAP的Web服务并提取数据。

2)API一次返回大约一百万行数据

3)使用mongoose将提取的数据保存到MongoDB中

数据库模型-(myModel.js)

var mongoose = require('mongoose')
var Schema = mongoose.Schema

var prodSchema = new Schema({
    rowIndex: {
        type: Number,
    },
    prodId: {
        type: String,
    },
    prodDesc: {
        type: String,
    },
    prodCategory: {
        type: String,
    }
});

module.exports = mongoose.model('Product', prodSchema);

将附加到控制器的数据-(app.js)

/**
 * Module dependencies.
 */

/* Express */
var express = require('express');
var http = require('http');
var path = require('path');
var fs = require('fs');
var bcrypt = require('bcrypt-nodejs');
var moment = require('moment');
var os = require('os');

var config = require('./config');

/* Models */
var Product = require('./models/myModel');

var soap = require('soap');

var app = express();

/// Include the express body parser
app.configure(function () {
    app.use(express.bodyParser());
});

/* all environments */
app.engine('.html', require('ejs').__express);

app.set('port', process.env.PORT || 3000);
app.set('views', path.join(__dirname, 'views'));
app.set('view engine', 'html');

app.use(express.favicon());
app.use(express.logger('dev'));
app.use(express.json());
app.use(express.urlencoded());
app.use(express.methodOverride());
app.use(express.cookieParser('your secret here'));
app.use(express.session());
app.use(app.router);
app.use(express.static(path.join(__dirname, 'public')));

/* DB Connect */
mongoose.connect( 'mongodb://localhost:27017/productDB', function(err){
    if ('development' == app.get('env')) {
        if (err) throw err;
        console.log('Successfully connected to MongoDB globally');
    }
} );

/* Close DB gracefully */
var gracefulExit = function() { 
  mongoose.connection.close(function () {
    console.log('Mongoose default connection with DB is disconnected through app termination');
    process.exit(0);
  });
}

// If the Node process ends, close the Mongoose connection
process.on('SIGINT', gracefulExit).on('SIGTERM', gracefulExit);

/* development only */
if ('development' == app.get('env')) {
    app.use(express.errorHandler());
}

/********************************************************/
/***** GET *****/
/********************************************************/

app.get('/getproducts', getProducts);

/* If GET on http://localhost:3000/getproducts the call the below function to get data from web service */
function getProducts(req, res){
    var post = req.body;
    var url = 'http://www.example.com/?wsdl';
    soap.createClient(url, function(err, client) {
        client.setSecurity(new soap.BasicAuthSecurity(User, Pass));
        client.someMethod(function(err, result) {
            var product = result.DATA.item;
            for(var i=0; i<product.length; i++) {
                var saveData = new Product({
                    rowIndex: product.ROW_INDEX,
                    prodId: product.PROD_ID,
                    prodDesc: product.PROD_DESC,
                    prodCategory: product.PROD_CATEGORY,
                 });
                 saveData.save();
            }           
        });
    });   
}

/* Create Server */
http.createServer(app).listen(app.get('port'), function(){    
    console.log('Express server listening on port ' + app.get('port') + ' in ' + app.get('env') + ' mode');
});

从Web服务返回的数据

[ { ROW_INDEX: '1',
    PROD_ID: 'A1',
    PROD_DESC: 'New product',
    PROD_CATEGORY: 'Clothes' },
  { ROW_INDEX: '2',
    PROD_ID: 'A2',
    PROD_DESC: 'New product 2',
    PROD_CATEGORY: 'Clothes' },
  { ROW_INDEX: '3',
    PROD_ID: 'A3',
    PROD_DESC: 'New product 3',
    PROD_CATEGORY: 'shoes' },
  .
  .
  . millions of rows
]

需要的问题/建议

我面临的问题是,直到所有数据都保存到数据库中,服务器才被阻塞,并且没有其他功能(例如为并发用户呈现页面或保存更多数据)被执行。

我正在创建一个视图,该视图也将返回保存的数据。 这些又将是数百万行的数据-但这一次是从MongoDB获取的,并传递给EJS中的视图。

感谢您为优化并行运行性能和计算大量数据的性能提供的帮助/建议。

您的保存不是异步的。 该行被阻止:

saveData.save();

而是异步保存模型(保存完成后,传递一个函数以运行):

function getProducts(req, res){
    var post = req.body;
    var url = 'http://www.example.com/?wsdl';
    soap.createClient(url, function(err, client) {
        client.setSecurity(new soap.BasicAuthSecurity(User, Pass));
        client.someMethod(function(err, result) {
            var product = result.DATA.item;
            for(var i=0; i<product.length; i++) {
                var saveData = new Product({
                    rowIndex: product.ROW_INDEX,
                    prodId: product.PROD_ID,
                    prodDesc: product.PROD_DESC,
                    prodCategory: product.PROD_CATEGORY,
                });
                saveData.save( function (err, data) {
                    // any statements here will run when this row is saved,
                    // but the loop will continue onto the next product without
                    // waiting for the save to finish
                });
            }           
        });
    });   
    res.send("Getting the data! You can browse the site while you wait...");
}

这样,整个循环将立即(虚拟)运行,并且数据将在输入时得到保存。同时,您的节点进程可以自由处理其他Web请求。

听起来像是数据复制问题,因为您的数据没有在多个节点上复制。 我建议检查一下您的MongoDB的设置。 复制将提高服务的可用性,一个节点可响应初始请求,而其他节点则可保留相同数据的副本以响应新的读/写操作。

如果所有读取均为百万行读取,则可能需要几个节点。

一个快速的Google提出了有关复制的MongoDB教程。 开篇段落指出“复制提供冗余并增加数据可用性。”

http://docs.mongodb.org/manual/core/replication-introduction/

您可能想学习如何使用Streams

  1. 创建一个writable stream ,当它的_write()与某些数据一起调用时,将数据插入到mongodb中。 缓冲数据并小批量插入将更好。

  2. 创建一个transform stream ,将xml块(到达时)解析为json对象。 如果可以在npm上获得现成的流解析器,那么您将很幸运。

  3. 获得SOAP响应作为流(一百万个项目,但仍然是一个响应流),并使用管道:soap响应->转换-​​>写入。 这可能需要一些工作。

  4. 监听最后一个流的finish和所有流的error ,当第一次发出finisherror时,操作结束。 拆除管设置。( unpipe

  5. 此外,可以暂停和恢复流,因此您可能希望使用此功能来检查数据流。

上面的方法不会提高服务器的处理速度,只是有助于保持服务器的响应速度。 如果您想真正扩展规模,请构建一个专用的xml集群以用于db流服务。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM