从 Pandas 的列中的行中删除特殊字符的大多数 Pythonic 方法

Question

当我在 Pandas dataframe 上调用df.head()时，我得到以下信息：

0                                          New YorkÊ
1                                       Los AngelesÊ
2                                           ChicagoÊ
3                                            LondonÊ
4                                           HoustonÊ
Name: cities, dtype: object

如您所见，在cities列的末尾有一个额外的字符。 因此，我使用以下代码删除了此字符：

df['cities'] = df['cities'].str.replace('Ê', '')

这行得通。 但是，这是删除此字符的最佳（最 Pythonic）方法吗？

谢谢！

Answer 1

您的解决方案本身没有问题，但您最好为所有非 ascii 字符应用整体solution

>>> df['cities'] = df['cities'].str.encode('ascii', 'ignore').str.decode('ascii')

Answer 2

假设一个城市名称包含该字符？ 更安全的方法是

df['cities'] = df['cities'].str.rstrip('Ê')

尽管如果您有一个以该字符结尾的大写城市名称，它可能仍然很混乱。 但风险降低了。

从 Pandas 的列中的行中删除特殊字符的大多数 Pythonic 方法

问题描述

2 个解决方案

解决方案1
2 已采纳 2021-01-02 22:42:47

解决方案2
0 2021-01-02 22:47:42

从 Pandas 的列中的行中删除特殊字符的大多数 Pythonic 方法

问题描述

2 个解决方案

解决方案1 2 已采纳 2021-01-02 22:42:47

解决方案2 0 2021-01-02 22:47:42

解决方案1
2 已采纳 2021-01-02 22:42:47

解决方案2
0 2021-01-02 22:47:42