[英]charset detection, meta vs header
我們最近在嘗試確定用於頁面的正確編碼時遇到了一些麻煩。 我們遇到了具有以下設置的頁面:
標頭響應:
Content-Type:text/html; charset=GBK
元標記:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
實際內容以GBK為單位,現代瀏覽器足夠聰明,可以為此頁面使用正確的編碼。
但是對於爬蟲(使用curl),我們不得不決定選擇一個字符集值而不是另一個。 所以我的問題是: 將標頭字符集替換為元字符集是正常的事情嗎?
(我們嘗試過的大多數基於內容的編碼檢測算法充其量都是不穩定的,只要一個字符集比另一個字符集更可靠,相對於我們自己的編碼檢測中的任何一種,我們更喜歡使用指定的字符集。)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.