繁体   English   中英

如何使用cheerio和nodejs并发下载文件?

[英]How to concurrent download files using cheerio and nodejs?

我有一个包含多个页面的网站,每个页面都列出了我要剪贴和下载的下载链接。 我有几个问题:

  • 我的脚本仅下载约4-5个文件,并且卡住了。
  • 我想同时下载CPU可以下载的文件。
  • 我被最大的事件发射器困住了,我不明白为什么会这样,所以我就去
  • 如何仅使用请求模块来跟踪重定向(不使用follow-redirects)?
  • 如何像浏览器一样下载文件而不提及其名称? 没有content-disposition但我认为浏览器遵循重定向,并且重定向的URL在其路径中具有文件名。

我当前的代码如下所示:

var request = require('request');
var cheerio = require('cheerio');
var https = require('follow-redirects').https;
require('events').EventEmitter.prototype._maxListeners = 1000;

for(var i = 1; i <= 10000; i++) {
    (function(i){
        url = 'http://mywebsite.com/files?page=' + i;
        request(url, gotHTML)
    })(i);
}

function gotHTML(err, resp, html) {
    var $ = cheerio.load(html);
    $('.file-header').each(function() {
        var data = $(this);
        var fileLink = data.children().first().children().first().attr('href');
        var fileName = fileLink.substring(10);
        var downloadLink = 'https://mywebsite.com/api/download/' + fileName;
        download(downloadLink, function() {
            console.log('downloaded');
        })
    })
}

function download(url, cb) {
  var request = https.get(url, function(response) {
    var location = request.res.headers.location;
    console.log(location);
    location = location.split('/').pop();
    console.log(location);
    var file = fs.createWriteStream(location);
    response.pipe(file);
    file.on('finish', function() {
      file.close(cb);
    });
  });
}

默认的HTTP / HTTPS代理最多仅将5个套接字( maxSockets )用于对相同来源的请求。 因此,这可能会给您造成一些问题。

尝试更改此:

var request = https.get(url, function(response) {

对此:

var options = require('url').parse(url);
options.agent = false; // or use a custom https.Agent with a higher `maxSockets`
var request = https.get(options, function(response) {

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM