[英]Decoding UTF-8 strings in Python
我正在python中编写一个Web爬虫,它涉及从网站上获取头条新闻。
其中一个标题应该是:而且嘻哈也会来
但相反它说:而且Hip也来了
这里出了什么问题?
这是一个编码错误 - 所以如果它是一个unicode字符串,这应该修复它:
text.encode("windows-1252").decode("utf-8")
如果它是一个普通的字符串,你需要一个额外的步骤:
text.decode("utf-8").encode("windows-1252").decode("utf-8")
这两个都会给你一个unicode字符串。
顺便说一下 - 要发现这样的文本是如何因编码问题而被破坏的,你可以使用chardet :
>>> import chardet
>>> chardet.detect(u"And the Hip’s coming, too")
{'confidence': 0.5, 'encoding': 'windows-1252'}
您需要正确解码源文本。 很可能源文本是UTF-8格式,而不是ASCII格式。
由于您没有为您的问题提供任何上下文或代码,因此无法给出直接答案。
我建议你研究如何在Python中完成unicode和字符编码:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.