[英]charset detection, meta vs header
我们最近在尝试确定用于页面的正确编码时遇到了一些麻烦。 我们遇到了具有以下设置的页面:
标头响应:
Content-Type:text/html; charset=GBK
元标记:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
实际内容以GBK为单位,现代浏览器足够聪明,可以为此页面使用正确的编码。
但是对于爬虫(使用curl),我们不得不决定选择一个字符集值而不是另一个。 所以我的问题是: 将标头字符集替换为元字符集是正常的事情吗?
(我们尝试过的大多数基于内容的编码检测算法充其量都是不稳定的,只要一个字符集比另一个字符集更可靠,相对于我们自己的编码检测中的任何一种,我们更喜欢使用指定的字符集。)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.