根據不同條件在Pandas dataframe中新建一列

Question

這是我巨大的 dataframe 的一小部分：

data = {'index':  ['001', '001', '002', '002', '003', '003', '003', '004', '004', '004', '004', '005'],
        'vehicle': ['none', 'car', 'car', 'car', 'none', 'car', 'car', 'car', 'bus', 'bus', 'bus', 'motorcycle'],
        'cas_class': ['pedestrian', 'driver', 'driver', 'passenger', 'pedestrian', 'driver', 'driver', 'driver', 'driver', 'passenger', 'passenger', 'driver']}

df = pd.DataFrame (data, columns = ['index', 'vehicle', 'cas_class']) 
df

output：

    index   vehicle     cas_class
0   001     none        pedestrian
1   001     car         driver
2   002     car         driver
3   002     car         passenger
4   003     none        pedestrian
5   003     car         driver
6   003     car         driver
7   004     car         driver
8   004     bus         driver
9   004     bus         passenger
10  004     bus         passenger
11  005     motorcycle  driver

我想要做的是計算每個索引涉及多少車輛（索引表示事故）。 按條件計數的最簡單和最快的方法是什么？ 例如，我可以計算每次事故的司機人數，這樣我就可以知道每次事故中我有多少輛車。

使用此代碼，我設法做到了：

n_of_veh = df[df["cas_class"]=='driver'].groupby(['index']).size().reset_index()\
           .rename(columns= {0: 'n_of_veh'})
df = df.merge(n_of_veh, on='index')

這部分仍然是我想弄清楚的：

我還想添加另一列名為“reference”的列，我可以在其中引用哪輛車的傷亡情況，或者在行人的情況下，哪輛車撞到了行人。

有人可以幫忙嗎？ 我還在學習 pandas。 ：/

所需 OUTPUT：

    index   vehicle     class        n_of_veh   reference
0   001     none        pedestrian   1          1  
1   001     car         driver       1          1
2   002     car         driver       1          1
3   002     car         passenger    1          1
4   003     none        pedestrian   2          1
5   003     car         driver       2          1
6   003     car         driver       2          2
7   004     car         driver       2          1 
8   004     bus         driver       2          2
9   004     bus         passenger    2          2
10  004     bus         passenger    2          2
11  005     motorcycle  driver       1          1

編輯

原始數據的翻譯：

# columns translation
df = df.rename({'FECHA': 'Date', 'RANGO HORARIO': 'Hour', 'DIA SEMANA': 'Day_of_Week', 'DISTRITO': 'District', 'LUGAR ACCIDENTE': 'Street_Address', 'Nº': 'Street_Number', 'Nº PARTE': 'Accident_Index', 'CPFA Granizo': 'WC_Hail', 'CPFA Hielo': 'WC_Ice', 'CPFA Lluvia': 'WC_Rainy', 'CPFA Niebla': 'WC_Foggy', 'CPFA Seco': 'WC_Dry', 'CPFA Nieve': 'WC_Snowy', 'CPSV Mojada': 'RC_Wet', 'CPSV Aceite': 'RC_Oil', 'CPSV Barro': 'RC_Mud', 'CPSV Grava Suelta': 'RC_Gravel_Loose', 'CPSV Hielo': 'RC_Ice', 'CPSV Seca Y Limpia': 'RC_Dry_and_Clean', '* Nº VICTIMAS': 'Number_of_Casualties', 'TIPO ACCIDENTE': 'Collision_Type', 'Tipo Vehiculo': 'Vehicle_Type', 'TIPO PERSONA': 'Casualty_Class', 'SEXO': 'Sex_of_Casualty', 'LESIVIDAD': 'Casualty_Severity', 'Tramo Edad': 'Age_Band_of_Casualty'}, axis=1)

# removing columns that are not needed
df = df.drop(columns= ['Date', 'Hour', 'Day_of_Week', 'District', 'Street_Address', 'Street_Number', 'WC_Hail', 'WC_Ice', 'WC_Rainy', 'WC_Foggy', 'WC_Dry', 'WC_Snowy', 'RC_Wet', 'RC_Oil', 'RC_Mud', 'RC_Gravel_Loose', 'RC_Ice', 'RC_Dry_and_Clean', 'Sex_of_Casualty', 'Age_Band_of_Casualty'])

# other translations
collision_dict = {'COLISION DOBLE': 'Double_Collision', 'ATROPELLO': 'Pedestrian_Hit', 'COLISION MULTIPLE': 'Multiple_Collision', 'CAIDA MOTOCICLETA': 'Motorcycle_Fall', 'CHOQUE CON OBJETO FIJO': 'Accident_with_a_Fixed_Object', 'CAIDA VIAJERO BUS': 'Bus_Passenger_Fall', 'CAIDA BICICLETA': 'Bicycle_Fall', 'CAIDA CICLOMOTOR': 'Moped_Fall', 'OTRAS CAUSAS': 'Other_Types', 'VUELCO': 'Ended_on_the_Roof', 'CAIDA VEHICULO 3 RUEDAS': '3-Wheel_Vehicle_Fall'}
vehtype_dict = {'TURISMO': 'OtherVehicles', 'NO ASIGNADO': 'Not_Assigned', 'MOTOCICLETA': 'Motorcycle', 'FURGONETA': 'GoodsVehicle', 'AUTOBUS-AUTOCAR': 'BusCoach', 'AUTO-TAXI': 'CarTaxi', 'BICICLETA': 'Bicycle', 'CICLOMOTOR': 'Motorcycle', 'CAMION': 'GoodsVehicle', 'VARIOS': 'OtherVehicles', 'AMBULANCIA': 'OtherVehicles', 'VEH.3 RUEDAS': 'OtherVehicles'}
cclass_dict = {'CONDUCTOR': 'Driver', 'VIAJERO': 'Passenger', 'TESTIGO': 'Witness', 'PEATON': 'Pedestrian'}
csev_dict = {'HL' : 'Slight', 'HG': 'Serious', 'MT': 'Fatal', 'NO ASIGNADA': 'Not_Assigned', 'IL': 'Not_Injured'}

df.replace({'Collision_Type': collision_dict}, regex=True, inplace=True)
df.replace({'Vehicle_Type': vehtype_dict}, regex=True, inplace=True)
df.replace({'Casualty_Class': cclass_dict}, regex=True, inplace=True)
df.replace({'Casualty_Severity': csev_dict}, regex=True, inplace=True)

Answer 1

編輯

該解決方案回答了 OP 在連續編輯中發布的原始數據集。 變量名稱將由原始數據而不是問題開頭的樣本數據選擇。

1）我們首先創建一個查找 dataframe ，其中我們有每個事件的車輛數量，然后我們使用與原始 dataframe df的左連接

df_n_of_veh = df.groupby(['Accident_Index']).apply(lambda x: sum(x['Casualty_Class'] == 'Driver')).to_frame(name='n_of_veh').reset_index()
df = df.merge(df_n_of_veh, how='left', on='Accident_Index')

2）這個解決方案假設每個司機下面都有乘客。 基本上，每次我們在每個事件中的Casualty_Class中有'Driver'時，我們都會增加 1。 之后，由於乘客或證人仍將有 0，我們將它們替換為 1。 這次我們使用行索引進行合並，因為它們在df_ref中的排序不同

df_ref = df.groupby('Accident_Index').apply(lambda x: (x['Casualty_Class'] == 'Driver').astype(int).cumsum()).to_frame(name='reference').reset_index(level='Accident_Index').drop(['Accident_Index'], axis=1)
df_ref.loc[df_ref['reference'] == 0, 'reference'] = 1
df = df.merge(df_ref, left_index=True, right_index=True)

Output
（對不起圖片，但我相信這是展示它的最短方式）

根據不同條件在Pandas dataframe中新建一列

問題描述

這部分仍然是我想弄清楚的：

編輯

1 個解決方案

解決方案1
1 已采納 2020-06-04 10:54:51

編輯

根據不同條件在Pandas dataframe中新建一列

問題描述

這部分仍然是我想弄清楚的：

編輯

1 個解決方案

解決方案1 1 已采納 2020-06-04 10:54:51

編輯

解決方案1
1 已采納 2020-06-04 10:54:51