如何通过Node.js从xml检索URL？

Question

我正在抓取网页。 目前，我想抓取一个网站。 我有一个来自robots.txt文件的xml文件链接。 现在，我想从该xml中读取所有url。 但是不能这样做。 有人可以帮我弄清楚吗？

XML格式：

<urlset>
    <url>
       <loc>http://www.xxxx.com/</loc>
       <changefreq>test</changefreq>
    </url>
    <url>
       <loc>http://www.xxxx.com/</loc>
       <changefreq>test</changefreq>
    </url>
</urlset>

这是我的代码：

        var fs = require('fs')
          , flow = require('xml-flow')
          , inFile = fs.createReadStream(xml_file_url)
          , xmlStream = flow(inFile)
        ;

        xmlStream.on('tag:urlset', function(err,url) {
            if(err)
                return console.log(err);
          console.log(url);
          res.send('Check your console!')

        });

我想要loc的所有url并将它们推入数组。 我怎么解决这个问题？ 提前致谢。

Answer 1

您可以选择tag：loc并将每个标签推送到数组：

var fs = require('fs'),
    flow = require('xml-flow'),
    http = require('http');

var file = fs.createWriteStream('site.xml');

http.get('http://ajkerdeal.com/sitemap.xml', function(res) {
    res.on('data', function(data) {
        file.write(data);
    }).on('end', function() {
        file.end();

        var inFile = fs.createReadStream("site.xml"),
            xmlStream = flow(inFile);

        var array = [];
        xmlStream.on('tag:loc', function(url) {
            array.push(url.$text);
        });

        xmlStream.on('end', function(url) {
            console.log(array);

        });
    })
})

如何通过Node.js从xml检索URL？

问题描述

1 个解决方案

解决方案1
1 已采纳 2015-10-14 20:32:54

如何通过Node.js从xml检索URL？

问题描述

1 个解决方案

解决方案1 1 已采纳 2015-10-14 20:32:54

解决方案1
1 已采纳 2015-10-14 20:32:54