Python，Unicode和lxml解析以及如何处理35 \\ xa0new

Question

我正在提取网页广告中的字段，标记html文本内容看起来像这样...

35&nbsp;new

在python中，提取的数据看起来像这样...

35\xa0new

如何处理python中的unicode以转换为常规字符串？
“ 35个新”

我要使用哪个库？

谢谢

Answer 1

尽可能避免使用常规字符串； unicode通常对文本更有用，并且有许多众所周知的解决方案来处理和处理它们。

Answer 2

您正在从解析器获取unicode字符串。 如果您喜欢其他字符，则可以替换某些字符。 例如，您的\\xa0是一个不间断的空格，您可以将其替换为常规空格：

text = text.replace(u"\xa0", u" ")

您可能需要更改许多这样的字符，因此查找数据中所有出现的字符可能需要很长时间。