根據基於字符串的層次結構為列賦值

Question

我正在嘗試在比較兩列的 Pandas DataFrame 中創建一個新列，並根據預定義的層次結構在比較兩列之后填充第三列。 新列將根據層次結構采用兩者中較高的一個。 層次結構從最高到最低如下：

A1
A2
A3
A4
A5

DataFrame df如下所示。

sales_code   price_bucket_a   price_bucket_b
101          A1               A2
102          A3               A4
202          A2               A3
201          A4               A5
301          A2               A2 
302          A5               A1

我試圖實現的期望輸出如下所示。

sales_code   price_bucket_a   price_bucket_b   price_bucket_hier
101          A1               A2               A1
102          A3               A4               A3
202          A2               A3               A2
201          A4               A5               A4
301          A2               A2               A2
302          A5               A1               A1

所討論的層次結構和 DataFrame 只是總體總數的一小部分。

任何人都可以提供的任何幫助將不勝感激。

Answer 1

首先我們需要轉換為類別然后我們可以做min或max來得到正確的答案

cat=['A1','A2','A3','A4','A5']
df[['price_bucket_a','price_bucket_b']].apply(lambda x : pd.Categorical(x, categories=cat,ordered=True )).min(axis=1)
0    A1
1    A3
2    A2
3    A4
4    A2
dtype: object

Answer 2

這是 IIUC 的一種方法：

ix = df.filter(like='price').apply(lambda x: x.str.lstrip('A')).astype(int).idxmin(1)

df['price_bucket_hier'] = df.lookup(range(df.shape[0]), ix)

print(df)

 sales_code price_bucket_a price_bucket_b price_bucket_hier
0         101             A1             A2                A1
1         102             A3             A4                A3
2         202             A2             A3                A2
3         201             A4             A5                A4
4         301             A2             A2                A2

根據基於字符串的層次結構為列賦值

問題描述

2 個解決方案

解決方案1
5 已采納 2020-01-23 16:18:28

解決方案2
3 2020-01-23 16:17:16

根據基於字符串的層次結構為列賦值

問題描述

2 個解決方案

解決方案1 5 已采納 2020-01-23 16:18:28

解決方案2 3 2020-01-23 16:17:16

解決方案1
5 已采納 2020-01-23 16:18:28

解決方案2
3 2020-01-23 16:17:16