如何在 Python Regex Dataframe 中删除多个特殊字符模式

Question

所以我有一个名为usa_sub_states的数据usa_sub_states其中有一列名为'state' 。

在state列中，有 5 个带有非字母字符串的状态。

Massachusetts[C]
Pennsylvania[C]
Rhode Island[D]
Virginia[C]
Hawai'i

现在我想知道是否有一种方法可以用空字符串替换所有特殊字符，以便它们都作为常规状态名称出现。

usa_sub_states.state.replace(to_replace=r'[\W]', value='', regex=True, inplace=True)

但由于某种原因，这删除了该列的所有内容并使其成为空字符串。

Answer 1

您可以使用

usa_sub_states.state.replace(to_replace=r'\[[^][]*]|\W', value='', regex=True, inplace=True)

请参阅正则表达式演示。 详情：