繁体   English   中英

如何用非唯一的垃圾箱边缘切割熊猫系列?

[英]How to cut Pandas Series with non-unique bin edges?

我有一系列约200000的值,其中> 50%是NaN和0。理想情况下,我想使用qcut()来对值进行qcut() ,但是由于qcut()边缘不唯一,这给了我一个错误。 如何将分形1中的所有NaN值和分形2中的0值分类,然后将分形标签3至10中的其余非零值分类(假设我需要10个分形)

您可以给qcut提供一个指定分布的数组( 文档中的例子是[0,.25,.5,.75,1.]用于分位数。因此,首先用-1填充NaN以确保它们出现然后指定具有此分布的存储桶数组:

[0,
count(-1)/df.shape[0],
(count(-1)+count(0))/df.shape[0],
(count(-1)+count(0))/df.shape[0] + 1.*(df.shape[0] - count(-1)+count(0))/7,
(count(-1)+count(0))/df.shape[0] + 2.*(df.shape[0] - count(-1)+count(0))/7,
#...
1]

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM