簡體   English   中英

字符集檢測,元與標題

[英]charset detection, meta vs header

我們最近在嘗試確定用於頁面的正確編碼時遇到了一些麻煩。 我們遇到了具有以下設置的頁面:

標頭響應:

Content-Type:text/html; charset=GBK

元標記:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

實際內容以GBK為單位,現代瀏覽器足夠聰明,可以為此頁面使用正確的編碼。

但是對於爬蟲(使用curl),我們不得不決定選擇一個字符集值而不是另一個。 所以我的問題是: 將標頭字符集替換為元字符集是正常的事情嗎?

(我們嘗試過的大多數基於內容的編碼檢測算法充其量都是不穩定的,只要一個字符集比另一個字符集更可靠,相對於我們自己的編碼檢測中的任何一種,我們更喜歡使用指定的字符集。)

將標頭字符集替換為元字符集是正常的事情嗎?

是。 請參閱規格

在第4步檢查HTTP標頭。直到第5步(如果它在文件中顯示得足夠快)或第9步(否則),才檢查Meta。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM