根據其他 4 個變量創建一個新變量

Question

我在 Python 中有一個名為df1的 dataframe ，其中我有 4 個名為 Ordering_1 的二分變量； Ordering_2、Ordering_3、Ordering_4 的真/假值。

我需要創建一個名為Clean的變量，它基於其他 4 個變量。 意思是，當 Ordering_1 == True 時，Clean == Ordering_1，當 Ordering_2==True 時，Clean == Ordering_2。 那么 Clean 將是 Ordering_1 中所有真實值的組合； Ordering_2、Ordering_3、Ordering_4。

這是我希望變量 Clean 的示例：

我嘗試了以下代碼，但它不起作用： df1[Clean] = df1[Ordering_1] + df1[Ordering_1] + df1[Ordering_1] + df1[Ordering_1]

有人能幫我在 python 中如何做到這一點嗎？

Answer 1

如果每行有多個True的通用解決方案 - 通過DataFrame.filter過濾列，然后使用DataFrame.dot進行矩陣乘法：

df1 = df.filter(like='Ordering_')

df['Clean'] = df1.dot(df1.columns + ',').str.strip(',')

Answer 2

如果每行只有一個“True”值，您可以使用每列“Ordering_1”、“Ordering_2”等的布爾值和 df1.loc。

請注意，這是您使用 df1.Ordering_1 得到的結果：0 True 1 False 2 False 3 False 名稱：Ordering_1，dtype：bool

使用 df1.loc，您可以使用它來過濾“True”行，在這種情況下只有第 0 行：

所以你可以這樣編碼：

創建一個新的空白“clean”列：df1["clean"]=""
將系列 df.Ordering_1 = True 的行設置為“Ordering_1”：
df1.loc[df1.Ordering_1,["clean"]] = "Ordering_1"
以同樣的方式處理剩余的列。

根據其他 4 個變量創建一個新變量

問題描述

2 個解決方案

解決方案1
1 2021-12-15 10:58:21

解決方案2
0 2021-12-15 11:11:45

根據其他 4 個變量創建一個新變量

問題描述

2 個解決方案

解決方案1 1 2021-12-15 10:58:21

解決方案2 0 2021-12-15 11:11:45

解決方案1
1 2021-12-15 10:58:21

解決方案2
0 2021-12-15 11:11:45