繁体   English   中英

字符集检测,元与标题

[英]charset detection, meta vs header

我们最近在尝试确定用于页面的正确编码时遇到了一些麻烦。 我们遇到了具有以下设置的页面:

标头响应:

Content-Type:text/html; charset=GBK

元标记:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

实际内容以GBK为单位,现代浏览器足够聪明,可以为此页面使用正确的编码。

但是对于爬虫(使用curl),我们不得不决定选择一个字符集值而不是另一个。 所以我的问题是: 将标头字符集替换为元字符集是正常的事情吗?

(我们尝试过的大多数基于内容的编码检测算法充其量都是不稳定的,只要一个字符集比另一个字符集更可靠,相对于我们自己的编码检测中的任何一种,我们更喜欢使用指定的字符集。)

将标头字符集替换为元字符集是正常的事情吗?

是。 请参阅规格

在第4步检查HTTP标头。直到第5步(如果它在文件中显示得足够快)或第9步(否则),才检查Meta。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM