Pandas DataFrame檢查列值是否存在列值

Question

我有這樣的DataFrame（簡化示例）

id  v0  v1  v2  v3  v4
1   10  5   10  22  50
2   22  23  55  60  50
3   8   2   40  80  110
4   15  15  25  100 101

並且如果v0值在v1到v4的值中，則想要創建一個1或0的附加列，如果不是，則創建0。 因此，在此示例中，對於id 1，則該值應為1（因為v2 = 10），並且對於id 2值應該為0，因為22不在v1到v4中。

實際上，表格更大（大約100,000行，變量從v1到v99）。

Answer 1

您可以使用底層的numpy數組來提高性能：

設定

a = df.v0.values
b = df.iloc[:, 2:].values

df.assign(out=(a[:, None]==b).any(1).astype(int))

   id  v0  v1  v2   v3   v4  out
0   1  10   5  10   22   50    1
1   2  22  23  55   60   50    0
2   3   8   2  40   80  110    0
3   4  15  15  25  100  101    1

該解決方案利用廣播來進行成對比較：

首先，我們播出a ：

>>> a[:, None]
array([[10],
       [22],
       [ 8],
       [15]], dtype=int64)

這允許與b成對比較：

>>> a[:, None] == b
array([[False,  True, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [ True, False, False, False]])

然后，我們只需檢查沿第一個軸的任何True結果，並轉換為整數。

性能

職能

def user_chris(df):
    a = df.v0.values
    b = df.iloc[:, 2:].values
    return (a[:, None]==b).any(1).astype(int)

def rahlf23(df):
    df = df.set_index('id')
    return df.drop('v0', 1).isin(df['v0']).any(1).astype(int)

def chris_a(df):
    return df.loc[:, "v1":].eq(df['v0'], 0).any(1).astype(int)

def chris(df):
    return df.apply(lambda x: int(x['v0'] in x.values[2:]), axis=1)

def anton_vbr(df):
    df.set_index('id', inplace=True)
    return df.isin(df.pop('v0')).any(1).astype(int)

設定

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from timeit import timeit

res = pd.DataFrame(
       index=['user_chris', 'rahlf23', 'chris_a', 'chris', 'anton_vbr'],
       columns=[10, 50, 100, 500, 1000, 5000],
       dtype=float
)

for f in res.index:
    for c in res.columns:
        vals = np.random.randint(1, 100, (c, c))
        vals = np.column_stack((np.arange(vals.shape[0]), vals))
        df = pd.DataFrame(vals, columns=['id'] + [f'v{i}' for i in range(0, vals.shape[0])])
        stmt = '{}(df)'.format(f)
        setp = 'from __main__ import df, {}'.format(f)
        res.at[f, c] = timeit(stmt, setp, number=50)

ax = res.div(res.min()).T.plot(loglog=True)
ax.set_xlabel("N");
ax.set_ylabel("time (relative)");

plt.show()

產量

Answer 2

怎么樣：

df['new_col'] = df.loc[:, "v1":].eq(df['v0'],0).any(1).astype(int)

[OUT]

   id  v0  v1  v2   v3   v4  new_col
0   1  10   5  10   22   50        1
1   2  22  23  55   60   50        0
2   3   8   2  40   80  110        0
3   4  15  15  25  100  101        1

Answer 3

我在這里假設id設置為您的數據幀索引：

df = df.set_index('id')

然后以下應該工作（類似的答案在這里）：

df['New'] = df.drop('v0', 1).isin(df['v0']).any(1).astype(int)

得到：

    v0  v1  v2   v3   v4  New
id                           
1   10   5  10   22   50    1
2   22  23  55   60   50    0
3    8   2  40   80  110    0
4   15  15  25  100  101    1

Answer 4

您還可以使用lambda函數：

df['newCol'] = df.apply(lambda x: int(x['v0'] in x.values[2:]), axis=1)

    id  v0  v1  v2  v3  v4  newCol
0   1   10  5   10  22  50  1
1   2   22  23  55  60  50  0
2   3   8   2   40  80  110 0
3   4   15  15  25  100 101 1

Answer 5

另一種看法，很可能是最小的語法：

df['new'] = df.isin(df.pop('v0')).any(1).astype(int)

完整證明：

import pandas as pd

data = '''\
id  v0  v1  v2  v3  v4
1   10  5   10  22  50
2   22  23  55  60  50
3   8   2   40  80  110
4   15  15  25  100 101'''

df = pd.read_csv(pd.compat.StringIO(data), sep='\s+')
df.set_index('id', inplace=True)
df['new'] = df.isin(df.pop('v0')).any(1).astype(int)
print(df)

返回：

    v1  v2   v3   v4  new
id                       
1    5  10   22   50    1
2   23  55   60   50    0
3    2  40   80  110    0
4   15  25  100  101    1

Pandas DataFrame檢查列值是否存在列值

問題描述

5 個解決方案

解決方案1
12 已采納 2018-09-18 20:01:52

解決方案2
3 2018-09-18 19:58:11

解決方案3
2 2018-09-18 20:00:16

解決方案4
2 2018-09-18 20:01:35

解決方案5
2 2018-09-18 20:27:41

Pandas DataFrame檢查列值是否存在列值

問題描述

5 個解決方案

解決方案1 12 已采納 2018-09-18 20:01:52

解決方案2 3 2018-09-18 19:58:11

解決方案3 2 2018-09-18 20:00:16

解決方案4 2 2018-09-18 20:01:35

解決方案5 2 2018-09-18 20:27:41

解決方案1
12 已采納 2018-09-18 20:01:52

解決方案2
3 2018-09-18 19:58:11

解決方案3
2 2018-09-18 20:00:16

解決方案4
2 2018-09-18 20:01:35

解決方案5
2 2018-09-18 20:27:41