繁体   English   中英

解码XML中的扩展字符

[英]Decoding extended characters in XML

我知道这可能很简单,可能之前曾有人问过,但是我在想出解决方案时遇到了麻烦。

我正在解析一些RSS提要,其中包括HTML作为CDATA块。 这里是一个示例: http : //g.msn.com/1ewenus50/news2

提要变化很大,但是几乎总是包含一些扩展字符。 例如,如果我制作一个简单的控制台应用程序并使用WebClient.DownloadString并查看结果,我会看到类似

“得知他在圣诞节中途飞行时曾试图进行253航班炸弹袭击者的极端分子联系。美国全国广播公司的萨凡纳·古思里报道。(今日节目)”

但是,这些怪异的字符应该是撇号,引号,破折号等。

使它们正确解码的诀窍是什么?

如果不清楚,我正在使用C#/ .NET。 最后,这些内容将在Silverlight中呈现,但是我也在完整的.NET 3.5运行时中看到了这个问题。

二进制形式下载它并将其解析为XML。 这样做应该正确无误-XML文档应该在编码方面进行自我描述,但是我不会把它放到某些网络服务器上(以标头的形式)以具有不同编码的方式来宣传它,这会混淆DownloadString

通常,涉及XML时,应该在XML API中而不是对原始数据进行尽可能多的处理。

您可能使用了错误的文本编码...我不确定您使用的是哪种还是正确的,但是这可能会让您走上正轨。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM