[英]Pandas: drop row if more than one of multiple columns is zero
我有一个这样的数据框:
col0 col1 col2 col3
ID1 0 2 0 2
ID2 1 1 2 10
ID3 0 1 3 4
我想删除多次包含零的行。
我试过这样做:
cols = ['col1', etc]
df.loc[:, cols].value_counts()
但这仅适用于系列而不适用于数据框。
df.loc[:, cols].count(0) <= 1
只返回布尔值。
我觉得我已经接近这里的第二次尝试了。
应用条件并计算True
值。
(df == 0).sum(1)
ID1 2
ID2 0
ID3 1
dtype: int64
df[(df == 0).sum(1) < 2]
col0 col1 col2 col3
ID2 1 1 2 10
ID3 0 1 3 4
或者,将整数转换为 bool 并求和。 直接一点。
# df[(~df.astype(bool)).sum(1) < 2]
df[df.astype(bool).sum(1) > len(df.columns)-2] # no inversion needed
col0 col1 col2 col3
ID2 1 1 2 10
ID3 0 1 3 4
为了性能,您可以使用np.count_nonzero
:
# df[np.count_nonzero(df, axis=1) > len(df.columns)-2]
df[np.count_nonzero(df.values, axis=1) > len(df.columns)-2]
col0 col1 col2 col3
ID2 1 1 2 10
ID3 0 1 3 4
df = pd.concat([df] * 10000, ignore_index=True)
%timeit df[(df == 0).sum(1) < 2]
%timeit df[df.astype(bool).sum(1) > len(df.columns)-2]
%timeit df[np.count_nonzero(df.values, axis=1) > len(df.columns)-2]
7.13 ms ± 161 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
4.28 ms ± 120 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
997 µs ± 38.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
使用
df.loc[df.eq(0).sum(1).le(1),]
col0 col1 col2 col3
ID2 1 1 2 10
ID3 0 1 3 4
有趣的方式
df.mask(df.eq(0)).dropna(0, thresh=df.shape[1] - 1).fillna(0)
col0 col1 col2 col3
ID2 1.0 1 2.0 10
ID3 0.0 1 3.0 4
df.replace(0, np.nan, inplace=True)
df.dropna(subset=df.columns, thresh=2, inplace=True)
df.fillna(0., inplace=True)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.