刪除帶有csv文件某些關鍵字的行

Question

我有一個大數據文件，需要刪除具有某些關鍵字的行。

這是我正在使用的文件的示例：

User Name     DN
MB31212       CN=MB31212,CN=Users,DC=prod,DC=trovp,DC=net
MB23423       CN=MB23423 ,OU=Generic Mailbox,DC=prod,DC=trovp,DC=net
MB23424       CN=MB23424 ,CN=Users,DC=prod,DC=trovp,DC=net
MB23423       CN=MB23423,OU=DNA,DC=prod,DC=trovp,DC=net
MB23234       CN=MB23234 ,OU=DNA,DC=prod,DC=trovp,DC=net

這是我導入文件的方式：

import pandas as pd
df = pd.read_csv('sample.csv', sep=',', encoding='latin1')

我怎樣才能

例如，刪除DN列中所有包含“ OU = DNA”的行？
如何刪除DN列中的第一個屬性“ CN = x”，而不刪除該列中的其余數據？

我想得到類似於下面發布的內容，其中刪除了包含“ OU = DNA”的2行，並從每一行中刪除了“ CN = x”：

User Name     DN
MB31212       CN=Users,DC=prod,DC=trovp,DC=net
MB23423       OU=Generic Mailbox,DC=prod,DC=trovp,DC=net
MB23424       CN=Users,DC=prod,DC=trovp,DC=net

Answer 1

您可以嘗試將此兩步過濾作為邏輯。 使用str.contains方法篩選出具有行OU=DNA和使用str.replace方法與正則表達式來修整領先CN=x ：

newDf = df.loc[~df.DN.str.contains("OU=DNA")]
newDf.DN = newDf.DN.str.replace("^CN=[^,]*,", "")
newDf

    UserName    DN
0   MB31212 CN=Users,DC=prod,DC=trovp,DC=net
1   MB23423 OU=Generic Mailbox,DC=prod,DC=trovp,DC=net
2   MB23424 CN=Users,DC=prod,DC=trovp,DC=net

正則表達式略有不同： ^表示字符串的開頭，其后是CN=並使用[^,]*,捕獲模式，直到第一個逗號為止；

Answer 2

要讀取您使用的文件樣本，我使用了：

df = pd.read_csv('sample.csv', sep='     ', encoding='latin1', engine="python")

接着：

df = df.drop(df[df.DN.str.contains("OU=DNA")].index)
df.DN = df.DN.str.replace('(CN=MB[0-9]{5}\s*,)', '')
df

得到了預期的結果：

    User Name   DN
0   MB31212     CN=Users,DC=prod,DC=trovp,DC=net
1   MB23423     OU=Generic Mailbox,DC=prod,DC=trovp,DC=net
2   MB23424     CN=Users,DC=prod,DC=trovp,DC=net

刪除帶有csv文件某些關鍵字的行

問題描述

2 個解決方案

解決方案1
3 已采納 2016-06-22 21:40:33

解決方案2
1 2016-06-22 22:10:05

刪除帶有csv文件某些關鍵字的行

問題描述

2 個解決方案

解決方案1 3 已采納 2016-06-22 21:40:33

解決方案2 1 2016-06-22 22:10:05

解決方案1
3 已采納 2016-06-22 21:40:33

解決方案2
1 2016-06-22 22:10:05