簡體   English   中英

python中的分層抽樣

[英]Stratified sampling in python

我想在 python 中對數據框庫進行采樣。 該樣本必須按特定變量進行分層。 我試過 sklearn.cross_validation 但問題是你只能用一個變量分層,我需要根據幾個變量對我的人口進行分層。

所以我正在尋找相當於proc調查,(SAS中的分層指令)或svydesign(R中)。 這個函數是否存在於python中?

我在此頁面上找到了函數 stratified_samples https://gist.github.com/spacelis/6088623但沒有文檔或使用示例,很難理解如何輸入分層變量。

謝謝你的幫助

這是一個古老的問題,但為了那些從搜索到達這里的人的利益:

Python 中有一個相對較新的包,稱為samplics 這相當於 R 中的survey庫。我在 SAS 方面沒有經驗,但我想它也應該涵蓋這一點。

samplics旨在涵蓋復雜調查設計的許多方面,包括抽樣、加權和估計。 github頁面上有一個按地區抽樣的例子。

其他感興趣的軟件包(盡管文檔略顯稀疏):

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM