簡體   English   中英

沒有http-equiv元標記且字符集的HTML文件可能不是UTF-8

[英]HTML files with no http-equiv meta tag and the charset may be other than UTF-8

我們正在使用jsoup-非常感謝。

我們可能會獲得沒有http-equiv元標記的HTML文件,並且字符集可能不是UTF-8。 請問如何最好地處理這個問題。 我們可以列出一些編碼,然后嘗試使用它們,但是我不確定如何以編程方式告訴您是否出了問題。 jsoup會拋出IOException嗎?

Jsoup將嘗試通過內容類型標頭http equiv標簽確定編碼,如果您都不使用utf8 ,則將使用utf8 不知道jsoup是否可以在這里為您做更多的事情。

但是您可以嘗試另一種方法:

實現一個為您讀取文件的類。 在那里您可以解決所有編碼問題。 結果,這樣的類應該為您提供正確的編碼字符串,或者至少為您的輸入使用編碼。

(html input) --> [encoding class] --normalized encoding--> [jsoup] --> (whatever)   

現在,Jsoup可以使用已知的編碼來解析該輸入。

我猜不可能對html創建內容進行更改,不是嗎?

一些進一步的閱讀:

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM