熊貓系列的二進制移位

Question

我在pandas數據框中有一些布爾變量，我需要獲取所有唯一的元組。 所以我的想法是創建一個新的變量值串聯列，然后使用pandas.DataFrame.unique（）獲得所有唯一元組。

因此，我的想法是使用二進制開發進行連接。 例如，對於數據框：

import pandas as pd
df = pd.DataFrame({'v1':[0,1,0,0,1],'v2':[0,0,0,1,1], 'v3':[0,1,1,0,1], 'v4':[0,1,1,1,1]})

我可以這樣創建一列：

df['added'] = df['v1'] + df['v2']*2 + df['v3']*4 + df['v4']*8

我的想法是在這樣的變量列表上進行迭代（應注意，在我的實際問題上，我不知道列數）：

variables = ['v1', 'v2', 'v3', 'v4']
df['added'] = df['v1']
for ind, var in enumerate(variables[1:]) :
   df['added'] = df['added'] + df[var] << ind

但是，這將引發錯誤：“ TypeError：<<：'Series'和'int'的不受支持的操作數類型。

我可以這樣解決pandas.DataFrame.apply（）的問題：

variables = ['v1', 'v2', 'v3', 'v4']
df['added'] = df['v1']
for ind, var in enumerate(variables[1:]) :
   df['added'] = df['added'] + df[var].apply(lambda x : x << ind )

但是，應用（通常）很慢。 我怎樣才能更有效地做事情？

提前致謝

中號

Answer 1

獲取唯一行與drop_duplicates 相同。 （通過查找所有重復的行並將其刪除，只剩下唯一的行。）

df[["v2","v3","v4"]].drop_duplicates()

Answer 2

使用此解決方案，僅簡化一下，因為訂購已被交換：

df['new'] = df.values.dot(1 << np.arange(df.shape[-1]))
print (df)
   v1  v2  v3  v4  new
0   0   0   0   0    0
1   1   0   1   1   13
2   0   0   1   1   12
3   0   1   0   1   10
4   1   1   1   1   15

1000行4列的效果：

np.random.seed(2019)

N= 1000
df = pd.DataFrame(np.random.choice([0,1], size=(N, 4)))
df.columns = [f'v{x+1}' for x in df.columns]

In [60]: %%timeit
    ...: df['new'] = df.values.dot(1 << np.arange(df.shape[-1]))
113 µs ± 1.45 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Yuca解決方案：

In [65]: %%timeit
    ...: variables = ['v1', 'v2', 'v3', 'v4']
    ...: df['added'] = df['v1']
    ...: for ind, var in enumerate(variables[1:]) :
    ...:     df['added'] = df['added'] + [x<<ind for x in df[var]]
    ...: 
1.82 ms ± 16.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

原始解決方案：

In [66]: %%timeit
    ...: variables = ['v1', 'v2', 'v3', 'v4']
    ...: df['added'] = df['v1']
    ...: for ind, var in enumerate(variables[1:]) :
    ...:    df['added'] = df['added'] + df[var].apply(lambda x : x << ind )
    ...: 
3.14 ms ± 8.52 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Answer 3

在回答您一個更有效的替代方法的問題時，我發現列表理解確實對您有所幫助：

variables = ['v1', 'v2', 'v3', 'v4']
df['added'] = df['v1']
for ind, var in enumerate(variables[1:]) :
    %timeit df['added'] = df['added'] + [x<<ind for x in df[var]]

308 µs ± 22.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
322 µs ± 19 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
316 µs ± 10.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

因此315 µs vs：

variables = ['v1', 'v2', 'v3', 'v4']
df['added'] = df['v1']
for ind, var in enumerate(variables[1:]) :
    %timeit df['added'] = df['added'] + df[var].apply(lambda x : x << ind )

500 µs ± 38.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
503 µs ± 32.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
481 µs ± 32 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

作為免責聲明，我不同意總和的價值，但這是一個不同的話題:)

熊貓系列的二進制移位

問題描述

3 個解決方案

解決方案1
1 2019-04-02 13:11:40

解決方案2
1 已采納 2019-04-02 13:14:19

解決方案3
0 2019-04-02 13:15:08

熊貓系列的二進制移位

問題描述

3 個解決方案

解決方案1 1 2019-04-02 13:11:40

解決方案2 1 已采納 2019-04-02 13:14:19

解決方案3 0 2019-04-02 13:15:08

解決方案1
1 2019-04-02 13:11:40

解決方案2
1 已采納 2019-04-02 13:14:19

解決方案3
0 2019-04-02 13:15:08