簡體   English   中英

Python:Chi Squared用於大型數據集中的分類值

[英]Python: Chi Squared for categorical values in large dataset

我沒有使用Python的經驗,並且我正在嘗試將其用於對非常大的數據集(1000萬個案例)進行統計分析,因為其他選項(SPSS和R)無法處理授權硬件上的數據集。

在此數據集中,有許多分類變量(Diagnosis1,Diagnosis2 ... Diagnosis30)和Event變量(因變量)。
案例列為行。

像這樣的東西

Diagnosis1       Diagnosis2         Diagnosis3   Event
1                0                  0            1
0                1                  0            0 
0                1                  0            0 

....等等

我可以加載數據並用此查看 -

    import pandas as pd
    import numpy as np
    NRD_Data = pd.read_csv('NRD_DL.csv')
    NRD_Data.head()

但我仍然堅持如何構建2x2表並對表執行Chi Square測試。

            Diagnosis1=1   Diagnosis1=0
Event=1     100            12
Event=0     80             45

類似於在SPSS上運行交叉表以比較分類值的東西是期望的結果。

使用pd.crosstab獲取所需的矩陣,然后就可以進行Chi Square測試

l=['Diagnosis1',  'Diagnosis2',  'Diagnosis3']
d=[]
for i in l:
    d.append(pd.crosstab(df['Event'],df[i]))
d[0]
Out[569]: 
Diagnosis1  0  1
Event           
0           2  0
1           0  1

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM