繁体   English   中英

403 禁止使用 Cheerio

[英]403 Forbidden when using Cheerio

我正在尝试抓取一个网站,以便我可以为某个项目收集一些信息,这是我的代码,它在控制台 403 中返回。我正在使用 request 和cheerio 来执行此操作,为什么会发生这种情况? 注意我知道大多数状态代码的含义。

const request = require('request');
const cheerio = require('cheerio');


request('http://www.realmeye.com/forum/', function(err, resp, html) {
    if (!err) {
        const gatherInformation = cheerio.load(html);
        console.log(html);
    }
})

您应该向请求添加一个“User-Agent”标头,它适合某些浏览器(例如 chrome)。 服务器可能会检查它以避免不熟悉的客户端。

网页抓取的拇指规则:使用 chrome 开发工具/提琴手/其他类似工具检查从您的客户端(chrome、firefox 等)发出的请求,然后再尝试在您的框架上重现它(检查标头、cookie 等) )。

在您的情况下,我在 Fiddler 上看到的原始请求(在 chrome 上点击您的网址时):

GET /forum/ HTTP/1.1
Host: www.realmeye.com
Connection: keep-alive
Cache-Control: max-age=0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36
Sec-Fetch-Mode: same-origin
Sec-Fetch-Site: same-origin
Accept-Encoding: gzip, deflate, br
Accept-Language: en-US,en;q=0.9,he;q=0.8

大多数服务器会在返回 200 OK 响应之前检查“Accept”和“User-Agent”标头。

固定代码片段:

const request = require('request');
const cheerio = require('cheerio');

let options = {
    url: 'https://www.realmeye.com/forum/',
    headers: {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
    }
};

request(options, function(err, resp, html) {
    if (!err) {
        const gatherInformation = cheerio.load(html);
        console.log(html);
    }
})

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM