繁体   English   中英

无法从庞大的xlsx文件中获取正确的工作表-使用NodeJS XLSX库

[英]Not able to get right Sheets from huge xlsx files — using NodeJS XLSX library

我正在尝试从一个巨大的文件(800k行)中获取数据,并通过lambda(AWS)将其放入数据库。 为此,我从S3获取xlsx文件作为缓冲区并读取它。

module.exports.getSalesData = new Promise((resolve, reject) => {
  getFileFromS3(filename)
    .then(function (workbook) {
      console.log(workbook.SheetNames[1]); // 'sales'
      console.log(workbook.SheetNames); // showing sales as [ 'main', 'sales', 'Sheet1' ]
      console.log(Array.isArray(workbook.SheetNames)); // true
      console.log(typeof workbook.SheetNames); // Object
      console.log(Object.keys(workbook.Sheets)); // [ 'main', 'Sheet1' ] == why 'sales' is not here?

      var sheet_name = workbook.SheetNames[1]; // sales tab
      var json_sheet = XLSX.utils.sheet_to_json(workbook.Sheets[sheet_name], { raw: true })
      resolve(json_sheet)
    })
    .catch(err => {
      console.log('File: ' + filename + ' doesn\'t exists on S3 or you\'re not connected to the internet.');
    })
})

问题在于workbook.Sheets我应该看到[ 'main', 'sales', 'Sheet1' ] ,对吗?

然后,我尝试像这样获取行数(已转换为JSON):

getSalesData.then(function (data) {
    console.log(data.length + ' rows');
    console.log(data[0]);
  }).catch(err => console.error(err));

其中参数data是上面函数中定义的json_sheet 因此,对于data.length (行数),我得到0而不是800k +。 而且,当然,我无法获得undefined data[0]

PS .:该文件有57.3mb-不确定是否是原因。

在此先感谢您的帮助。

因此,基本上发生的是NodeJS无法读取完整文件,因为它使NodeJS VM的字符串内存限制崩溃了。

所以我要做的是增加内存限制,如下所示:

node --max-old-space-size=2048 services/process/process-sales.js

NodeJS的内存将从512MB增加到2048MB / 2GB。

但这只是读取大量值的一种解决方案。

我不建议使用NodeJS这样威胁大量数据。 而是使用一些很棒的库(例如Pandas)来使用Python。

PS .:我的观点和经验是使用nodejs处理数据。 我不认为nodejs是为此而设计的。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM