繁体   English   中英

帮助在Python更换非ASCII字符。

[英]Help Replacing Non-ASCII character in Python

我有一堆使用Python中的HTTPLIB2包下载的HTML文件。 “”显示为“”。

<font color="#ff0000">02/12/2004Â </font> is showing while <font color="#ff0000">02/12/2004&nbsp;</font> is the desired format.

如何将'Â '替换为'&nbsp;' 在Python中? 非常感谢!

您遇到了编码问题。 与其尝试删除此字符,不如寻找页面的编码,然后在读取文件时,使用codecs模块代替open() ,并使用正确的字符编码。

filtered_content = filter(lambda x: x in string.printable, content)

这解决了我的问题。 谢谢!

s.replace('Â ', '&nbsp;');

但是,虽然我还没有使用HTTPLIB2,但是如果您在下载HTML文件时更改了HTML文件的来源,我可以肯定这是有问题的。 可能存在解码问题。 您正在使用哪个版本的Python? 如果是Python 3,其内容将是字节序列,而不是字符串,因此您必须指定正确的代码页才能将字节解码到。

http://code.google.com/p/httplib2/wiki/ExamplesPython3

编辑:如果您不仅仅使用httplib2,也许您可​​以尝试使用httplib 2.6标准库中的urlliburllib2httplib模块?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM