使用非字母数字字符过滤掉行

Question

我试图从现有的DataFrame中获取一个DataFrame，其中只包含某列（其值为字符串）中的值不包含某个字符的行。

即如果我们不想要的角色是'('

原始数据帧：

   some_col my_column
0         1      some
1         2      word
2         3    hello(

新数据框：

   some_col my_column
0         1      some
1         2      word

我试过df.loc['(' not in df['my_column']] ，但这不起作用，因为df['my_column']是一个Series对象。

我也尝试过： df.loc[not df.my_column.str.contains('(')] ，这也行不通。

Answer 1

你在找str.isalpha ：

df[df.my_column.str.isalpha()]

   some_col my_column
0         1      some
1         2      word

如果你想保留字母和数字，类似的方法是str.isalnum 。

如果要处理字母和空格字符，请使用

df[~df.my_column.str.contains(r'[^\w\s]')]

   some_col my_column
0         1      some
1         2      word

最后，如果你想删除整个标点符号，我在这里写了一个问答，这可能是一个有用的读物：用熊猫快速删除标点符号

Answer 2

如果您要过滤掉该字符：

否定`str.contains`

逃离开放的paren。 某些字符可以解释为特殊的正则表达式字符。 你可以用反斜杠来逃避它们。

df[~df.my_column.str.contains('\(')]

   some_col my_column
0         1      some
1         2      word

顺便说一句，这是一个坏主意！ 检查整个字符串，它不是带有正则表达式的字符。

df[df.my_column.str.match('^[^\(]*$')]

   some_col my_column
0         1      some
1         2      word

df[['(' not in x for x in df.my_column]]

   some_col my_column
0         1      some
1         2      word