在熊貓數據框上應用正則表達式功能

Question

我在熊貓中有一個數據框，例如：

0                       1                   2
([0.8898668778942382    0.89533945283595]   0)
([1.2632564814188714    1.0207660696232244] 0)
([1.006649166957976     1.1180973832359227] 0)
([0.9653632916751714    0.8625538463644129] 0)
([1.038366333873932     0.9091449796555554] 0)

所有值都是字符串。 我想刪除所有特殊字符並轉換為雙精度。 我想應用一個功能來刪除所有特殊字符，例如點

import re
re.sub('[^0-9.]+', '',x)

所以我想將其應用於數據框的所有單元格。 我該怎么做？ 我找到df.applymap函數，但我不知道如何將字符串作為參數傳遞。 我試過了

def remSp(x): 
    re.sub('^[0-9]+', '',x)

df.applymap(remSp())

但我不知道如何將單元格傳遞給函數。 有更好的方法嗎？

謝謝

Answer 1

為什么不能直接使用regex在df上使用默認的替換方法

df = df.replace('[^\d.]', '',regex=True).astype(float)

0         1    2
0  0.889867  0.895339  0.0
1  1.263256  1.020766  0.0
2  1.006649  1.118097  0.0
3  0.965363  0.862554  0.0
4  1.038366  0.909145  0.0

這仍然比其他答案更快。

Answer 2

使用applymap

In [814]: df.applymap(lambda x: re.sub(r'[^\d.]+', '', x)).astype(float)
Out[814]:
          0         1    2
0  0.889867  0.895339  0.0
1  1.263256  1.020766  0.0
2  1.006649  1.118097  0.0
3  0.965363  0.862554  0.0
4  1.038366  0.909145  0.0

使用transform

In [809]: df.transform(lambda x: x.str.replace(r'[^\d.]+', '')).astype(float)
Out[809]:
          0         1    2
0  0.889867  0.895339  0.0
1  1.263256  1.020766  0.0
2  1.006649  1.118097  0.0
3  0.965363  0.862554  0.0
4  1.038366  0.909145  0.0

Answer 3

遍歷列，調用str.replace 。

for c in df.columns:
    df[c] = df[c].str.replace('[^\d.]', '')

df = df.astype(float)
df
          0         1  2
0  0.889867  0.895339  0
1  1.263256  1.020766  0
2  1.006649  1.118097  0
3  0.965363  0.862554  0
4  1.038366  0.909145  0

不幸的是， pandas尚不支持整個數據幀上的字符串訪問器操作，因此，循環遍歷列的替代方法會比較慢，例如lambdised applymap/transform 。

性能

小

100 loops, best of 3: 2.04 ms per loop  # applymap 
100 loops, best of 3: 2.69 ms per loop  # transform
1000 loops, best of 3: 1.45 ms per loop  # looped str.replace

**大（ `df 10000`* ）**

1 loop, best of 3: 618 ms per loop  # applymap 
1 loop, best of 3: 658 ms per loop  # transform
1 loop, best of 3: 341 ms per loop  # looped str.replace
1 loop, best of 3: 212 ms per loop  # df.replace

在熊貓數據框上應用正則表達式功能

問題描述

3 個解決方案

解決方案1
4 已采納 2017-09-08 10:23:04

解決方案2
3 2017-09-08 09:43:06

解決方案3
2 2017-09-08 09:44:53

小

**大（ `df 10000`* ）**

在熊貓數據框上應用正則表達式功能

問題描述

3 個解決方案

解決方案1 4 已采納 2017-09-08 10:23:04

解決方案2 3 2017-09-08 09:43:06

解決方案3 2 2017-09-08 09:44:53

小

大（ df * 10000 ）

解決方案1
4 已采納 2017-09-08 10:23:04

解決方案2
3 2017-09-08 09:43:06

解決方案3
2 2017-09-08 09:44:53

**大（ `df 10000`* ）**