確定列值是否在基於另一列的條件范圍之間

Question

我有一個數據框，如下所示：

    data = np.array([[5, 'red', 2,6, 8, 10],
                 [11, 'red', 3,9,6,15],
                 [8, 'blue', 0, 3, 5, 10],
                 [2, 'blue', 1, 2, 3, 4]])
    df = pd.DataFrame(data, columns = ['A','B','red_lower', 'red_upper', 'blue_lower', 'blue_upper'])

    A     B red_lower red_upper blue_lower blue_upper
0   5   red         2         6          8         10
1  11   red         3         9          6         15
2   8  blue         0         3          5         10
3   2  blue         1         2          3          4

我想創建一個額外的列，告訴我A列中的值是否在B列中給出的顏色范圍內。例如，在第0行中，由於5的名稱為紅色，我將檢查是否為5是2到6之間。所以我將新列有一個1。

期望的結果：

    A    B   red_lower red_upper blue_lower blue_upper in_range
0   5   red         2         6          8         10        1
1  11   red         3         9          6         15        0
2   8  blue         0         3          5         10        1
3   2  blue         1         2          3          4        0

我試過寫一個循環，但是我遇到了很多系列錯誤。 我真的不想分開數據框（按顏色），但也許這是要走的路？ （在我的實際數據框中，有六種不同的'顏色'，而不僅僅是兩種）。

謝謝！

編輯：獎金，如果我們有額外的列告訴我，如果值高於或低於范圍！ 例如，在第1行中，11超出范圍，因此太高。 表應該是這樣的：

    A     B red_lower red_upper blue_lower blue_upper in_range
0   5   red         2         6          8         10   inside
1  11   red         3         9          6         15    above
2   8  blue         0         3          5         10   inside
3   2  blue         1         2          3          4    below

Answer 1

`justify` + `broadcast` + `mask` + `logical_and`

你可以在這里使用一些漂亮的廣播，並從另一個答案justify這個功能。 這假設每種顏色都有一個有效范圍。 它還假設您的所有數字列實際上都是數字 。

values = df.A.values
colors = df.B.values

range_frame = df.iloc[:, 2:]
ranges = range_frame.columns.str.split('_').str[0].values

m = colors != ranges[:, None]
masked = range_frame.mask(m)

jf = justify(masked.values, invalid_val=np.nan)[:, :2]
ir = np.logical_and(jf[:, 0] < values, values < jf[:, 1]).astype(int)

c1 = values <= jf[:, 0]
c2 = values >= jf[:, 1]

irl = np.select([c1, c2], ['below', 'above'], 'inside')

df.assign(in_range=ir, in_range_flag=irl)

    A     B  red_lower  red_upper  blue_lower  blue_upper  in_range in_range_flag
0   5   red          2          6           8          10         1        inside
1  11   red          3          9           6          15         0         above
2   8  blue          0          3           5          10         1        inside
3   3  blue          1          2           3           4         0         below

`stack` + `reshape` + `logical_and`

再次做出與第一個答案相同的假設。

u = df.set_index(['A', 'B']).stack().rename_axis(['A', 'B', 'flag']).reset_index()
frame = u[u.flag.str.split('_').str[0] == u.B]

values = frame[::2].A.values
ranges = frame[0].values.reshape(-1, 2)

ir = np.logical_and(ranges[:, 0] < values, values < ranges[:, 1])

c1 = values <= ranges[:, 0]
c2 = values >= ranges[:, 1]

irl = np.select([c1, c2], ['below', 'above'], 'inside')

df.assign(in_range=ir, in_range_flag=irl)

以下是@Divakar的justify函數的定義：

def justify(a, invalid_val=0, axis=1, side='left'):    
    """
    Justifies a 2D array

    Parameters
    ----------
    A : ndarray
        Input array to be justified
    axis : int
        Axis along which justification is to be made
    side : str
        Direction of justification. It could be 'left', 'right', 'up', 'down'
        It should be 'left' or 'right' for axis=1 and 'up' or 'down' for axis=0.

    """

    if invalid_val is np.nan:
        mask = ~np.isnan(a)
    else:
        mask = a!=invalid_val
    justified_mask = np.sort(mask,axis=axis)
    if (side=='up') | (side=='left'):
        justified_mask = np.flip(justified_mask,axis=axis)
    out = np.full(a.shape, invalid_val) 
    if axis==1:
        out[justified_mask] = a[mask]
    else:
        out.T[justified_mask.T] = a.T[mask.T]
    return out

Answer 2

這里使用groupby分割df和大部分步驟由定義處理，這意味着你不需要每次都輸入不同的顏色

l=[]
for name,x  in df.groupby('B',sort=False):
    s1=(x.A >= x.filter(like=name).iloc[:, 0]) & (x.A <= x.filter(like=name).iloc[:, 1])
    s2=x.A<x.filter(like=name).iloc[:, 0]
    l.extend(np.select([s1,s2],['inside','below'],default='above').tolist())

df['in_range']=l
df
Out[64]: 
    A     B  red_lower  red_upper  blue_lower  blue_upper in_range
0   5   red          2          6           8          10   inside
1  11   red          3          9           6          15    above
2   8  blue          0          3           5          10   inside
3   2  blue          1          2           3           4    below

確定列值是否在基於另一列的條件范圍之間

問題描述

2 個解決方案

解決方案1
3 2019-07-08 21:22:14

`justify` + `broadcast` + `mask` + `logical_and`

`stack` + `reshape` + `logical_and`

解決方案2
3 2019-07-08 21:22:39

確定列值是否在基於另一列的條件范圍之間

問題描述

2 個解決方案

解決方案1 3 2019-07-08 21:22:14

justify + broadcast + mask + logical_and

stack + reshape + logical_and

解決方案2 3 2019-07-08 21:22:39

解決方案1
3 2019-07-08 21:22:14

`justify` + `broadcast` + `mask` + `logical_and`

`stack` + `reshape` + `logical_and`

解決方案2
3 2019-07-08 21:22:39