![](/img/trans.png)
[英]Verify if character may be encoded with windows-1250 in Javascript
[英]Getting correct string from windows-1250 encoded web page with node.js
我试图从nodejs的网页抓取一些数据,但我遇到字符编码问题。 该网页声明它的编码是: <meta http-equiv="Content-Type" content="text/html; charset=windows-1250">
当我用chrome浏览它时,它将编码设置为windows-1250和所有内容看起来很好。
由于节点中的流没有windows-1250编码/解码(并且utf8不起作用),我发现了一个iconv-lite包,它应该能够轻松地在不同的编码之间进行转换。 但是在将响应保存到文件(或输出到控制台)后,我仍然会收到错误的字符。 我也尝试了不同的编码,本机节点缓冲编码,设置标题与我在chrome中看到的相同( Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3
)但是似乎没有什么工作正常。
你可以在这里看到整个代码https://gist.github.com/4110999 。
我想我错过了关于编码如何工作的基本信息,所以任何有关如何使用正确字符获取数据的帮助都将受到赞赏。
编辑:
还尝试了node-iconv包,以防它出现包问题。 将第51行更改为:
var decoder = new Iconv_native('WINDOWS-1250', 'UTF-8');
var decoded = decoder.convert(body).toString();
但仍然得到相同的结果。
我想,你正在转换String,但你必须转换原始字节 ! 如果(您正在从Web上读取内容,则必须将其读作二进制)
从磁盘读取win-1250中的文件的示例:
var Buffer = require('buffer').Buffer;
var Iconv = require('iconv').Iconv;
//without options (encoding is not specified), 'fs' reads as raw bytes.
var bytes= fs.readFileSync('myFile.txt');
//this is bad: var myBadString = fs.readFileSync('myFile.txt', { encoding: "UTF-8" });
var buf = new Buffer(bytes, 'binary');
var translated = new Iconv('CP1250', 'UTF8').convert(buf).toString();
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.