簡體   English   中英

ISO-8859-1編碼的字符串到UTF-8字符串

[英]ISO-8859-1 encoded string to UTF-8 string

我正在使用HtmlAgilityPack從某些網站獲取一些元數據。 但是,很多網站的元數據內容都使用ISO-8857-1編碼保存,因此我得到如下字符串:

Alt sammen under ét tag.  Kontakt os i dag på

作為編碼初學者,我完全不知道如何獲取常規的UTF-8編碼字符串。 我嘗試過這樣的過程:

Encoding.GetEncoding("iso-8859-1").GetString(Encoding.UTF8.GetBytes(input));

這只是給我一個更加晦澀的字符串。 有人可以指出我正確的方向嗎? 當我在引號塊中寫入字符時,即使堆棧溢出也會將iso-8859-1字符轉換為正確的字符。

您是否在尋找"Alt sammen under ét tag. Kontakt os i dag på"作為輸出? 在這種情況下,您可能會混淆字符編碼和html編碼,這是頁面字符編碼之上的另一層編碼。

在這種情況下,請使用system.web.httputility.htmldecode將字符串獲取為“可讀”字符串。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM