node.js中的Zombie.js无法抓取某些网站

Question

下面的简单脚本返回一堆垃圾。 它适用于大多数网站，但不适用于William Hill：

var Browser = require("zombie");
var assert = require("assert");

// Load the page from localhost
browser = new Browser()
browser.visit("http://sports.williamhill.com/bet/en-gb/betting/y/5/et/Football.html", function () {
browser.wait(function(){
console.log(browser.html());
});
});

与节点一起运行

输出：

S J ꪙRUk kf 6 Efr2 Riz 0 X { ^ a yp p Ή`（S] - 'N8q /ݻU;？݇ׯ荣ٲ> -3 GEE，mFMIQ2ڊZGOJ ^ SC〜gJO缇öݎP ET n;v D tvJn J 8' 햷r v： m J Z nh ] 。 Z. {ZӲlB'.¶D〜$ N / U “zNi” ǌ\\ 00_I \\ 00 \\ SOE8 {“米; H，oQy;一个[CQD띊/ | ？：;！Z} / w的ےħ<％AK = -a〜”

（实际输出要长得多）

任何人都知道为什么会发生这种情况，特别是为什么它会在我真正想抓取的唯一网站上发生？？？

谢谢

Answer 1

我很早以前就放弃了这种方法，但是如果有人感兴趣，我会从一位zombie.js开发人员那里得到答复。

https://github.com/assaf/zombie/issues/251#issuecomment-5969175

他说：“僵尸现在将发送accept-encoding头，以表明它不支持gzip。”

谢谢所有调查此事的人。

Answer 2

相同的代码可用于其他站点（也使用gzip进行答复），因此这不是代码问题。

我的猜测是该站点正在检测到您没有运行浏览器并防御了数据提取。

node.js中的Zombie.js无法抓取某些网站

问题描述

2 个解决方案

解决方案1
1 已采纳 2012-06-07 13:38:43

解决方案2
0 2012-01-05 12:51:00

node.js中的Zombie.js无法抓取某些网站

问题描述

2 个解决方案

解决方案1 1 已采纳 2012-06-07 13:38:43

解决方案2 0 2012-01-05 12:51:00

解决方案1
1 已采纳 2012-06-07 13:38:43

解决方案2
0 2012-01-05 12:51:00