繁体   English   中英

Python,Unicode和lxml解析以及如何处理35 \\ xa0new

[英]Python, Unicode and parsing with lxml and how to deal with 35\xa0new

我正在提取网页广告中的字段,标记html文本内容看起来像这样...

35 new

在python中,提取的数据看起来像这样...

35\xa0new

如何处理python中的unicode以转换为常规字符串?
“ 35个新”

我要使用哪个库?

谢谢

尽可能避免使用常规字符串; unicode通常对文本更有用,并且有许多众所周知的解决方案来处理和处理它们。

您正在从解析器获取unicode字符串。 如果您喜欢其他字符,则可以替换某些字符。 例如,您的\\xa0是一个不间断的空格,您可以将其替换为常规空格:

text = text.replace(u"\xa0", u" ")

您可能需要更改许多这样的字符,因此查找数据中所有出现的字符可能需要很长时间。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM