[英]binary shift of pandas series
我在pandas數據框中有一些布爾變量,我需要獲取所有唯一的元組。 所以我的想法是創建一個新的變量值串聯列,然后使用pandas.DataFrame.unique()獲得所有唯一元組。
因此,我的想法是使用二進制開發進行連接。 例如,對於數據框:
import pandas as pd
df = pd.DataFrame({'v1':[0,1,0,0,1],'v2':[0,0,0,1,1], 'v3':[0,1,1,0,1], 'v4':[0,1,1,1,1]})
我可以這樣創建一列:
df['added'] = df['v1'] + df['v2']*2 + df['v3']*4 + df['v4']*8
我的想法是在這樣的變量列表上進行迭代(應注意,在我的實際問題上,我不知道列數):
variables = ['v1', 'v2', 'v3', 'v4']
df['added'] = df['v1']
for ind, var in enumerate(variables[1:]) :
df['added'] = df['added'] + df[var] << ind
但是,這將引發錯誤:“ TypeError:<<:'Series'和'int'的不受支持的操作數類型。
我可以這樣解決pandas.DataFrame.apply()的問題:
variables = ['v1', 'v2', 'v3', 'v4']
df['added'] = df['v1']
for ind, var in enumerate(variables[1:]) :
df['added'] = df['added'] + df[var].apply(lambda x : x << ind )
但是,應用(通常)很慢。 我怎樣才能更有效地做事情?
提前致謝
中號
獲取唯一行與drop_duplicates
相同 。 (通過查找所有重復的行並將其刪除,只剩下唯一的行。)
df[["v2","v3","v4"]].drop_duplicates()
使用此解決方案 ,僅簡化一下,因為訂購已被交換:
df['new'] = df.values.dot(1 << np.arange(df.shape[-1]))
print (df)
v1 v2 v3 v4 new
0 0 0 0 0 0
1 1 0 1 1 13
2 0 0 1 1 12
3 0 1 0 1 10
4 1 1 1 1 15
1000
行4列的效果:
np.random.seed(2019)
N= 1000
df = pd.DataFrame(np.random.choice([0,1], size=(N, 4)))
df.columns = [f'v{x+1}' for x in df.columns]
In [60]: %%timeit
...: df['new'] = df.values.dot(1 << np.arange(df.shape[-1]))
113 µs ± 1.45 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
Yuca解決方案:
In [65]: %%timeit
...: variables = ['v1', 'v2', 'v3', 'v4']
...: df['added'] = df['v1']
...: for ind, var in enumerate(variables[1:]) :
...: df['added'] = df['added'] + [x<<ind for x in df[var]]
...:
1.82 ms ± 16.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
原始解決方案:
In [66]: %%timeit
...: variables = ['v1', 'v2', 'v3', 'v4']
...: df['added'] = df['v1']
...: for ind, var in enumerate(variables[1:]) :
...: df['added'] = df['added'] + df[var].apply(lambda x : x << ind )
...:
3.14 ms ± 8.52 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
在回答您一個更有效的替代方法的問題時,我發現列表理解確實對您有所幫助:
variables = ['v1', 'v2', 'v3', 'v4']
df['added'] = df['v1']
for ind, var in enumerate(variables[1:]) :
%timeit df['added'] = df['added'] + [x<<ind for x in df[var]]
308 µs ± 22.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
322 µs ± 19 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
316 µs ± 10.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
因此315 µs vs:
variables = ['v1', 'v2', 'v3', 'v4']
df['added'] = df['v1']
for ind, var in enumerate(variables[1:]) :
%timeit df['added'] = df['added'] + df[var].apply(lambda x : x << ind )
500 µs ± 38.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
503 µs ± 32.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
481 µs ± 32 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
作為免責聲明,我不同意總和的價值,但這是一個不同的話題:)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.