簡體   English   中英

解碼XML中的擴展字符

[英]Decoding extended characters in XML

我知道這可能很簡單,可能之前曾有人問過,但是我在想出解決方案時遇到了麻煩。

我正在解析一些RSS提要,其中包括HTML作為CDATA塊。 這里是一個示例: http : //g.msn.com/1ewenus50/news2

提要變化很大,但是幾乎總是包含一些擴展字符。 例如,如果我制作一個簡單的控制台應用程序並使用WebClient.DownloadString並查看結果,我會看到類似

“得知他在聖誕節中途飛行時曾試圖進行253航班炸彈襲擊者的極端分子聯系。美國全國廣播公司的薩凡納·古思里報道。(今日節目)”

但是,這些怪異的字符應該是撇號,引號,破折號等。

使它們正確解碼的訣竅是什么?

如果不清楚,我正在使用C#/ .NET。 最后,這些內容將在Silverlight中呈現,但是我也在完整的.NET 3.5運行時中看到了這個問題。

二進制形式下載它並將其解析為XML。 這樣做應該正確無誤-XML文檔應該在編碼方面進行自我描述,但是我不會把它放到某些網絡服務器上(以標頭的形式)以具有不同編碼的方式來宣傳它,這會混淆DownloadString

通常,涉及XML時,應該在XML API中而不是對原始數據進行盡可能多的處理。

您可能使用了錯誤的文本編碼...我不確定您使用的是哪種還是正確的,但是這可能會讓您走上正軌。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM