解码熊猫中的不间断空间read_html

Question

pandas.read_html的默认行为似乎是要转换  Unicode \\xa0代码的字符：

url = 'http://www.reuters.com/finance/stocks/company-officers/IBM'
ibm = pd.read_html(url, header=0)[0]
ibm.iloc[0,0]

弗吉尼亚州\\ xa0Rometty

我知道我可以使用转换器将这些转换为空格，如下所示：

spacer = lambda s: s.replace(u'\xa0', ' ')
ibm = pd.read_html(url, header=0, converters={'Name':spacer})[0]
ibm.iloc[0,0]

弗吉尼亚·罗密蒂（Virginia Rometty）

对于某些很常见的事情，这似乎不必要地复杂。 还有另一种方法吗？ 也许是encoding选项？

Answer 1

我不认为编码选项可以解决此问题，但是您可以摆脱它们。 使用str.replace ，您可以摆脱任何非ASCII并将其替换为空格。

ibm['Name'] = ibm['Name'].str.replace('[^\x00-\x8F]', ' ')

或者，只是不间断的空间-

ibm['Name'] = ibm['Name'].str.replace('\xa0', ' ')