基於現有列在 pandas 數據框中創建新列

Question

我有一個 Python 字典如下：

ref_dict = {
"Company1" :["C1_Dev1","C1_Dev2","C1_Dev3","C1_Dev4","C1_Dev5",],
"Company2" :["C2_Dev1","C2_Dev2","C2_Dev3","C2_Dev4","C2_Dev5",],
"Company3" :["C3_Dev1","C3_Dev2","C3_Dev3","C3_Dev4","C3_Dev5",],
 }

我有一個名為df的 Pandas 數據框，其中一列如下所示：

    DESC_DETAIL
0   Probably task Company2 C2_Dev5
1   File system C3_Dev1
2   Weather subcutaneous Company2
3   Company1 Travesty C1_Dev3
4   Does not match anything 
...........

我的目標是在此數據框中添加兩個額外的列，並將這些列命名為COMPANY和DEVICE 。 COMPANY列的每一行中的值將是字典中的公司鍵，如果它存在於DESC_DETAIL列中，或者相應的設備存在於DESC_DETAIL列中。 DEVICE列中的值將只是DESC_DETAIL列中的設備字符串。 如果未找到匹配項，則對應的行為空。 因此最終的 output 將如下所示：

     DESC_DETAIL                        COMPANY         DEVICE
 0   Probably task Company2 C2_Dev5     Company2        C2_Dev5
 1   File system C3_Dev1                Company3        C3_Dev1
 2   Weather subcutaneous Company2      Company2        NaN
 3   Company1 Travesty C1_Dev3          Company1        C1_Dev3
 4   Does not match anything            NaN             NaN

我的嘗試：

for key, value in ref_dict.items():
    df['COMPANY'] = df.apply(lambda row: key if row['DESC_DETAIL'].isin(key) else Nan, axis=1)

這顯然是錯誤的並且不起作用。 我如何使它工作？

Answer 1

您可以使用正則表達式模式通過str.extract提取值：

import re

s = pd.Series(ref_dict).explode()

# extract company
df['COMPANY'] = df['DESC_DETAIL'].str.extract(
    f"({'|'.join(s.index.unique())})", flags=re.IGNORECASE)

# extract device
df['DEVICE'] = df['DESC_DETAIL'].str.extract(
    f"({'|'.join(s)})", flags=re.IGNORECASE)

# fill missing company values based on device
df['COMPANY'] = df['COMPANY'].fillna(
    df['DEVICE'].str.lower().map(dict(zip(s.str.lower(), s.index))))

df

Output：

                      DESC_DETAIL   COMPANY   DEVICE
0  Probably task Company2 C2_Dev5  Company2  C2_Dev5
1             File system C3_Dev1  Company3  C3_Dev1
2   Weather subcutaneous Company2  Company2      NaN
3       Company1 Travesty C1_Dev3  Company1  C1_Dev3
4         Does not match anything       NaN      NaN

Answer 2

您還需要一個設備到公司字典，您可以從ref_dict輕松構建它，如下所示：

dev_to_company_dict = {v:l[0] for l in zip(ref_dict.keys(), ref_dict.values()) for v in l[1]}

然后很容易做到這一點：

df['COMPANY'] = df['DESC_DETAIL'].apply(lambda det : ''.join(set(re.split("\\s+", det)).intersection(ref_dict.keys())))
df['COMPANY'].replace('', np.nan, inplace=True)
df['DEVICE'] = df['DESC_DETAIL'].apply(lambda det : ''.join(set(re.split("\\s+", det)).intersection(dev_to_company_dict.keys())))
df['DEVICE'].replace('', np.nan, inplace=True)
df['COMPANY'] = df['COMPANY'].fillna(df['DEVICE'].map(dev_to_company_dict))

Output：

                       DESC_DETAIL   COMPANY     DEVICE
0   Probably task Company2 C2_Dev5  Company2    C2_Dev5
1   File system C3_Dev1             Company3    C3_Dev1
2   Weather subcutaneous Company2   Company2        NaN
3   Company1 Travesty C1_Dev3       Company1    C1_Dev3
4   Does not match anything              NaN        NaN

基於現有列在 pandas 數據框中創建新列

問題描述

2 個解決方案

解決方案1
1 已采納 2021-04-21 21:22:21

解決方案2
0 2021-04-21 21:38:03

基於現有列在 pandas 數據框中創建新列

問題描述

2 個解決方案

解決方案1 1 已采納 2021-04-21 21:22:21

解決方案2 0 2021-04-21 21:38:03

解決方案1
1 已采納 2021-04-21 21:22:21

解決方案2
0 2021-04-21 21:38:03