繁体   English   中英

python中的分层抽样

[英]Stratified sampling in python

我想在 python 中对数据框库进行采样。 该样本必须按特定变量进行分层。 我试过 sklearn.cross_validation 但问题是你只能用一个变量分层,我需要根据几个变量对我的人口进行分层。

所以我正在寻找相当于proc调查,(SAS中的分层指令)或svydesign(R中)。 这个函数是否存在于python中?

我在此页面上找到了函数 stratified_samples https://gist.github.com/spacelis/6088623但没有文档或使用示例,很难理解如何输入分层变量。

谢谢你的帮助

这是一个古老的问题,但为了那些从搜索到达这里的人的利益:

Python 中有一个相对较新的包,称为samplics 这相当于 R 中的survey库。我在 SAS 方面没有经验,但我想它也应该涵盖这一点。

samplics旨在涵盖复杂调查设计的许多方面,包括抽样、加权和估计。 github页面上有一个按地区抽样的例子。

其他感兴趣的软件包(尽管文档略显稀疏):

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM