![](/img/trans.png)
[英]What is <meta http-equiv=“Content-Type” content=“text/html; charset=utf-8” />?
[英]HTML files with no http-equiv meta tag and the charset may be other than UTF-8
我們正在使用jsoup-非常感謝。
我們可能會獲得沒有http-equiv元標記的HTML文件,並且字符集可能不是UTF-8。 請問如何最好地處理這個問題。 我們可以列出一些編碼,然后嘗試使用它們,但是我不確定如何以編程方式告訴您是否出了問題。 jsoup會拋出IOException嗎?
Jsoup將嘗試通過內容類型標頭或http equiv標簽確定編碼,如果您都不使用utf8 ,則將使用utf8 。 不知道jsoup是否可以在這里為您做更多的事情。
但是您可以嘗試另一種方法:
實現一個為您讀取文件的類。 在那里您可以解決所有編碼問題。 結果,這樣的類應該為您提供正確的編碼字符串,或者至少為您的輸入使用編碼。
(html input) --> [encoding class] --normalized encoding--> [jsoup] --> (whatever)
現在,Jsoup可以使用已知的編碼來解析該輸入。
我猜不可能對html創建內容進行更改,不是嗎?
一些進一步的閱讀:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.