[英]Help Replacing Non-ASCII character in Python
我有一堆使用Python中的HTTPLIB2包下载的HTML文件。 “”显示为“”。
<font color="#ff0000">02/12/2004Â </font> is showing while <font color="#ff0000">02/12/2004 </font> is the desired format.
如何将'Â '
替换为' '
在Python中? 非常感谢!
您遇到了编码问题。 与其尝试删除此字符,不如寻找页面的编码,然后在读取文件时,使用codecs
模块代替open()
,并使用正确的字符编码。
filtered_content = filter(lambda x: x in string.printable, content)
这解决了我的问题。 谢谢!
s.replace('Â ', ' ');
但是,虽然我还没有使用HTTPLIB2,但是如果您在下载HTML文件时更改了HTML文件的来源,我可以肯定这是有问题的。 可能存在解码问题。 您正在使用哪个版本的Python? 如果是Python 3,其内容将是字节序列,而不是字符串,因此您必须指定正确的代码页才能将字节解码到。
http://code.google.com/p/httplib2/wiki/ExamplesPython3
编辑:如果您不仅仅使用httplib2,也许您可以尝试使用httplib
2.6标准库中的urllib
, urllib2
或httplib
模块?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.