使用Pandas從數據框中刪除部分字符串

Question

如果我有這樣的數據幀：

id    str
01    abc_d(a)
02    ab_d(a)
03    abcd_e(a)
04    a_b(a)

我如何獲得如下數據幀？ 對不起，我構建這個數據框來代表我的真實問題。 謝謝。

id    str
01    d
02    d
03    e
04    b

Answer 1

使用extract

df['str']=df['str'].str.extract("\_(.*)\(",expand=True) 
df
Out[585]: 
   id str
0   1   d
1   2   d
2   3   e
3   4   b

Answer 2

（錯誤的答案）

`Series.str.split`湯

df['str'] = df['str'].str.split('(').str[0].str.split('_').str[-1]    
df

   id str
0   1   d
1   2   d
2   3   e
3   4   b

（少回答錯誤）

`Series.str.extract`

df['str'] = df['str'].str.extract(r'_([^_]+)\(', expand=False)
df

   id str
0   1   d
1   2   d
2   3   e
3   4   b

正則表達式方法帶來了相當大的開銷，而str.extract並沒有太大的幫助使事情變得更好。

（更好的答案）

使用list comp進行`re.search`

import re

p = re.compile(r'(?<=_)[^_]+(?=\()')
df['str'] = [p.search(x)[0] for x in df['str'].tolist()] 
df

   id str
0   1   d
1   2   d
2   3   e
3   4   b

這應該比上述方法更快。 我發現與大多數矢量化字符串pandas方法相比，列表推導非常快，即使這確實使用了正則表達式。 我提前預編譯模式以減輕一些性能問題。

（也是一個更好的答案）

`str.split`與list comp

df['str'] = [
    x.split('(', 1)[0].split('_')[1] for x in df['str'].tolist()
]
df

   id str
0   1   d
1   2   d
2   3   e
3   4   b

這結合了兩個世界的優點，列表comp的性能和純python字符串拆分的速度。 應該是最快的。

性能

df_test = pd.concat([df] * 10000, ignore_index=True)

%timeit df_test['str'].str.extract(r'_([^_]+)\(', expand=False)
%timeit df_test['str'].str.split('(').str[0].str.split('_').str[-1] 
%timeit [p.search(x)[0] for x in df_test['str'].tolist()] 
%timeit [x.split('(', 1)[0].split('_')[1] for x in df_test['str'].tolist()]

70.4 ms ± 623 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
99.6 ms ± 730 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
31 ms ± 877 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
30 ms ± 431 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)  # fastest but not by much

Answer 3

可能是你可以嘗試split類似的例子：

df['str'] = df['str'].str.split('_').str.get(1).str[0]

要么，

df['str'] = df['str'].str.split('_').str.get(1).str.split('(').str[0]

Answer 4

使用pd.Series.str.split 。 具體到您的特定格式。

df['str'] = df['str'].str.split('_').str[-1].str[0]

print(df)

   id str
0   1   d
1   2   d
2   3   e
3   4   b

使用Pandas從數據框中刪除部分字符串

問題描述

4 個解決方案

解決方案1
3 2018-06-07 01:24:41

解決方案2
3 已采納 2018-06-07 01:35:44

`Series.str.split`湯

`Series.str.extract`

使用list comp進行`re.search`

`str.split`與list comp

解決方案3
1 2018-06-07 01:27:25

解決方案4
1 2018-06-07 01:27:29

使用Pandas從數據框中刪除部分字符串

問題描述

4 個解決方案

解決方案1 3 2018-06-07 01:24:41

解決方案2 3 已采納 2018-06-07 01:35:44

Series.str.split湯

Series.str.extract

使用list comp進行re.search

str.split與list comp

解決方案3 1 2018-06-07 01:27:25

解決方案4 1 2018-06-07 01:27:29

解決方案1
3 2018-06-07 01:24:41

解決方案2
3 已采納 2018-06-07 01:35:44

`Series.str.split`湯

`Series.str.extract`

使用list comp進行`re.search`

`str.split`與list comp

解決方案3
1 2018-06-07 01:27:25

解決方案4
1 2018-06-07 01:27:29