繁体   English   中英

尝试使用 Node.js 动态路由从 IMDB 中抓取电影内容。 但是在我的 output.json 文件中未定义?

[英]Trying to scrape movie contents from IMDB using Node.js dynamic routes . but getting undefined in my output.json file?

实际上,我正在尝试使用 node 从 ImDb 中抓取任何电影,但是在我发出请求但在我的 output.JSON 文件(电影评级和评论应该出现的地方)中得到 undefined 之后。

首先,我向http://www.imdb.com/find?q= 'movie' 发出请求,其中电影应该是动态的,以便我可以自己查询。 然后取序列号。 我正在向其 URL 发出请求以获取评分和评论

但未定义...检查代码并请更正

var express = require('express');

varcheerio = require("cheerio");

var request = require("请求");

var fs = require('fs');

var app = express();

app.get('/scrape/:movie' , function(req, res) {

var movie = req.params.movie;  
option = {
    protocol : "http:",
    host: "www.imdb.com",
    pathname : "/find " ,
    query: "q=movie"
}

// 这里我请求http://www.imdb.com/find?q= 'movie'

 request(option,function(error,request,body) {
     if(!error && response.statusCode == 200) {
         var $ =cheerio.load(body);
         var select=$(".result_text").attr("href");
     }
 });

// 这里我从 imdb 搜索中提取第一个找到的电影的序列号。

urls = "http://www.imdb.com/ + 'select' ";

request(urls, function(error,response,body) {
    
    if(!error && response.statusCode == 200) {
        var $ =cheerio.load(body);
        var title, release, rating, review;
        var json = { title : "",review : ""};

        json.title =$(".title").text(); 
        json.review= $(".reviewSection").text();
    }

    fs.writeFile('output.json', JSON.stringify(json, null, 7), function(error) {
        if(!error)
            console.log('File successfully written! - Check your project directory for the output.json file');

    });
    
    res.send('Check your console!');
});

}); app.listen(3000);

我已将代码编辑如下。 有几个问题妨碍了您。 如果您不知道它们是什么,请务必控制台日志。

var express = require('express');
var cheerio = require("cheerio");
var request = require("request");
var fs = require('fs');
var app = express();

app.get('/scrape/:movie' , function(req, res) {

var movie = req.params.movie;
var url = "http://www.imdb.com/find?q=" + movie;

这里只需将 url 设置为您想要的并在请求函数中调用它

 request(url, function(error, response, body) {

一定要考虑你对每个变量的称呼。 如果上面设置为“请求”,您将无法进行下面的请求调用,因为它已重置为响应。

if(!error && response.statusCode == 200) {
     var $ = cheerio.load(body);
     var select = $('.result_text').first().children()[0].attribs['href']
 }
 var url = 'http://www.imdb.com' + select;

在这里,您需要转到实际网站,打开开发者控制台,并找出您要使用的确切查询选择器。

再次将 url 设置为您想要的。 在这种情况下,选择显示为“/title/tt0357413”(对于主持人),因此相应地调整您的网址。


您需要将下一个请求放在上面的请求函数中,因为当在其外部调用此函数时,上面的函数仍在工作。 您需要确保在进行第二次请求调用之前设置了新的 url 变量。

request(url, function(error, response, body) {
   if(!error && response.statusCode == 200) {
     var $ =cheerio.load(body);
     var title, review;
     var json = { title : "",review : ""};

     json.title = $("h1").text();
     json.review = $('.imdbRating').text()
   }

同样对于这两个变量,请确保您打开开发人员控制台并找出您想要使用的确切选择器。

    fs.writeFile('output.json', JSON.stringify(json, null, 7), function(error) {
         if(!error)
         console.log('File successfully written! - Check your project directory for the output.json file');
       });

       res.send('Check your console!');
    });
  });
}); app.listen(3000);

我使用scavenger编写了这个脚本,它采用了电影巴西的标题和元评论:

 const scavenger = require('scavenger'); const baseUrl = "http://www.imdb.com"; const searchMovieUrl = `${baseUrl}/find?q=cell`; const extractMovieUrl = scavenger.createExtractor({ scope: 'tr.findResult', fields: { url: { selector: 'td.result_text a', attribute: 'href' } } }); const extractInfo = scavenger.createExtractor({ fields: { title: 'div.title_wrapper h1', score: 'div.metacriticScore' } }); scavenger.scrape(searchMovieUrl, extractMovieUrl) .then((movies) => { return scavenger.scrape(`${baseUrl}/${movies[0].url}`, extractInfo); }) .then((movieInfo) => { console.log(movieInfo); // [ { title: 'Brazil (1985)', score: '88' } ] });

您可以轻松地将其调整为您的服务器代码。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM