[英]apply vs nested for loops
我正在尝试在python中构建一个填充1和0的数据帧,具体取决于一列中的数字:
Date Hour
2005-01-01 1
2005-01-01 2
2005-01-01 3
2005-01-01 4
我想根据“小时”中的数字创建新列,如果该行等于“小时”中的值,则填充每列1,否则填充0。
Date Hour HE1 HE2 HE3 HE4
2005-01-01 1 1 0 0 0
2005-01-01 2 0 1 0 0
2005-01-01 3 0 0 1 0
2005-01-01 4 0 0 0 1
我可以使用此代码执行此操作,但需要很长时间:
for x in range(1,5):
_HE = 'HE' + str(x)
for i in load.index:
load.at[i, _HE] = 1 if load.at[i,'Hour']==x else 0
我觉得这对于.apply()来说是一个很棒的应用程序(没有双关语),但我无法让它正常工作。
你会如何加快速度?
在pandas循环中不建议使用,因为如果存在一些矢量化解决方案则很慢。
注意:在函数apply
中也是引擎盖下的循环。
所以使用pandas.get_dummies
和DataFrame.add_prefix
并join
以添加到原始df
:
df = df.join(pd.get_dummies(df['Hour'].astype(str)).add_prefix('HE'))
print (df)
Date Hour HE1 HE2 HE3 HE4
0 2005-01-01 1 1 0 0 0
1 2005-01-01 2 0 1 0 0
2 2005-01-01 3 0 0 1 0
3 2005-01-01 4 0 0 0 1
类似功能有不同的表现:
df = pd.concat([df] * 1000, ignore_index=True)
In [62]: %timeit df.join(pd.get_dummies(df['Hour'].astype(str)).add_prefix('HE'))
3.54 ms ± 277 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
#U9-Forward solution
In [63]: %timeit df.join(df['Hour'].astype(str).str.get_dummies().add_prefix('HE'))
61.6 ms ± 297 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
pandas.factorize
和数组切片赋值 j, h = pd.factorize(df.Hour)
i = np.arange(len(df))
b = np.zeros((len(df), len(h)), dtype=h.dtype)
b[i, j] = 1
df.join(pd.DataFrame(b, df.index, h).add_prefix('HE'))
Date Hour HE1 HE2 HE3 HE4
0 2005-01-01 1 1 0 0 0
1 2005-01-01 2 0 1 0 0
2 2005-01-01 3 0 0 1 0
3 2005-01-01 4 0 0 0 1
即使它与@ jezrael的答案非常相似,但是,这也好得多,(它只是为get_dummies
使用.str
访问get_dummies
:
print(df.join(df['Hour'].astype(str).str.get_dummies().add_prefix('HE')))
输出:
Date Hour HE1 HE2 HE3 HE4
0 2005-01-01 1 1 0 0 0
1 2005-01-01 2 0 1 0 0
2 2005-01-01 3 0 0 1 0
3 2005-01-01 4 0 0 0 1
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.