[英]Python lxml: how to deal with encoding errors parsing xml strings?
[英]Python, Unicode and parsing with lxml and how to deal with 35\xa0new
我正在提取网页广告中的字段,标记html文本内容看起来像这样...
35 new
在python中,提取的数据看起来像这样...
35\xa0new
如何处理python中的unicode以转换为常规字符串?
“ 35个新”
我要使用哪个库?
谢谢
尽可能避免使用常规字符串; unicode
通常对文本更有用,并且有许多众所周知的解决方案来处理和处理它们。
您正在从解析器获取unicode字符串。 如果您喜欢其他字符,则可以替换某些字符。 例如,您的\\xa0
是一个不间断的空格,您可以将其替换为常规空格:
text = text.replace(u"\xa0", u" ")
您可能需要更改许多这样的字符,因此查找数据中所有出现的字符可能需要很长时间。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.