使用正則表達式清洗電子表格

Question

我想刪除以下每個條目中的所有統計信息：

#ChangeColumnFullTimeGraduatesEmployedAtGraduation:74.3%    #ChangeColumnAverageStartingSalaryAndBonus:$134,360 3.4 #ChangeColumnFullTimeGraduatesEmployedThreeMonthsAfterGraduation:81.4%  #ChangeColumnPeerAssessmentScoreOutOf5.:4.3
#ChangeColumnFullTimeGraduatesEmployedAtGraduation:82.0%    #ChangeColumnAverageStartingSalaryAndBonus:$127,368 3.29    #ChangeColumnFullTimeGraduatesEmployedThreeMonthsAfterGraduation:89.8%  #ChangeColumnPeerAssessmentScoreOutOf5.:4.1
#ChangeColumnFullTimeGraduatesEmployedAtGraduation:80.7%    #ChangeColumnAverageStartingSalaryAndBonus:$123,177 3.4 #ChangeColumnFullTimeGraduatesEmployedThreeMonthsAfterGraduation:92.5%  #ChangeColumnPeerAssessmentScoreOutOf5.:4.0

我一直在嘗試使用正則表達式（regex）。 基於所需的最終輸出由不超過一個數字百分號/ $號組成的事實，這就是我拼湊的內容：

import re
import csv

with(open('sheet.csv','rU')) as f:

    for row in f:
        re.sub([^0-9\$\%],'',row)

返回以下語法錯誤：

re.sub([^0-9\$\%],'',row)

Answer 1

正則表達式是從字符串中解析出來的，使用字符串作為re.sub的參數，即

>>> re.sub(r'[^0-9\$\%]','',row)

或者您可能想拆分：

>>> [c for c in re.split(r'[^0-9\$\%\.]',row) if c]
['74.3%', '$134', '360', '3.4', '81.4%', '5.', '4.3']

實際上，它仍然不正確，因為列標簽中有數字。 如果您的輸入看起來完全像您的示例，則類似的方法可能會更好：

re.split(r'#[^:]+:|[ ,]',row)
'74.3%', '$134', '360', '3.4', '81.4%', '4.3'

使用正則表達式清洗電子表格

問題描述

1 個解決方案

解決方案1
4 已采納 2013-07-25 21:01:53

使用正則表達式清洗電子表格

問題描述

1 個解決方案

解決方案1 4 已采納 2013-07-25 21:01:53

解決方案1
4 已采納 2013-07-25 21:01:53