根據另一列值修改數據框列

Question

我有一個包含兩列的數據框，想根據另一列的值修改一列。

例子

unit        name
feet        abcd_feet
celcius     abcd_celcius
yard        bcde_yard
yard        bcde

如果單位是feet或yard並且名稱以它結尾，那么我想將它從列中刪除。

unit        name
feet        abcd
celcius     abcd_celcius
yard        bcde
yard        bcde

Answer 1

有兩種可能的方法可以解決您的問題：

第一種方法，速度更快，因為熊貓是基於列的：

UNITS_TO_REMOVE = {'feet', 'yard'}

df['value_'], df['unit_'] = df['name'].str.split('_').str
values_to_clean = (df['unit_'].isin(UNITS_TO_REMOVE)) & (df['unit_'] == df['unit'])
df.loc[values_to_clean, 'name'] = df.loc[values_to_clean, 'value_']
df.drop(columns=['unit_', 'value_'], inplace=True)

這是結果，

    unit    name
0   feet    abcd
1   celcius abcd_celcius
2   yard    bcde
3   yard    bcde

性能：每個循環 20 ms ± 401 µs（7 次運行的平均值 ± 標准偏差，每次 100 次循環） （在 (4000, 2) 數據幀上）

第二種方法，使用 apply（有時是唯一可用的解決方案）：

UNITS_TO_REMOVE = {'feet', 'yard'}

def remove_unit(unit, value):
    if unit not in UNITS_TO_REMOVE or '_' not in value:
        return value
    else:
        row_value, row_unit = value.split('_')
        if row_unit == unit:
            return row_value
        else:
            return value

df['name'] = df.apply(lambda row: remove_unit(row['unit'], row['name']), axis=1)

輸出：


    unit    name
0   feet    abcd
1   celcius abcd_celcius
2   yard    bcde
3   yard    bcde

性能：每個循環 152 ms ± 3.95 ms（7 次運行的平均值 ± 標准偏差，每次 10 次循環）

根據另一列值修改數據框列

問題描述

1 個解決方案

解決方案1
1 已采納 2019-02-21 10:04:09

根據另一列值修改數據框列

問題描述

1 個解決方案

解決方案1 1 已采納 2019-02-21 10:04:09

解決方案1
1 已采納 2019-02-21 10:04:09