帮助在Python更换非ASCII字符。

Question

我有一堆使用Python中的HTTPLIB2包下载的HTML文件。 “”显示为“Â”。

<font color="#ff0000">02/12/2004Â </font> is showing while <font color="#ff0000">02/12/2004&nbsp;</font> is the desired format.

如何将'Â '替换为' ' 在Python中？ 非常感谢！

Answer 1

您遇到了编码问题。 与其尝试删除此字符，不如寻找页面的编码，然后在读取文件时，使用codecs模块代替open() ，并使用正确的字符编码。

Answer 2

filtered_content = filter(lambda x: x in string.printable, content)

这解决了我的问题。 谢谢！

Answer 3

s.replace('Â ', '&nbsp;');

但是，虽然我还没有使用HTTPLIB2，但是如果您在下载HTML文件时更改了HTML文件的来源，我可以肯定这是有问题的。 可能存在解码问题。 您正在使用哪个版本的Python？ 如果是Python 3，其内容将是字节序列，而不是字符串，因此您必须指定正确的代码页才能将字节解码到。

http://code.google.com/p/httplib2/wiki/ExamplesPython3

编辑：如果您不仅仅使用httplib2，也许您可以尝试使用httplib 2.6标准库中的urllib ， urllib2或httplib模块？

帮助在Python更换非ASCII字符。

问题描述

3 个解决方案

解决方案1
1 2011-12-22 10:18:30

解决方案2
0 2010-05-27 17:25:14

解决方案3
-1 2010-05-27 14:15:31

帮助在Python更换非ASCII字符。

问题描述

3 个解决方案

解决方案1 1 2011-12-22 10:18:30

解决方案2 0 2010-05-27 17:25:14

解决方案3 -1 2010-05-27 14:15:31

解决方案1
1 2011-12-22 10:18:30

解决方案2
0 2010-05-27 17:25:14

解决方案3
-1 2010-05-27 14:15:31