[英]Python: Chi Squared for categorical values in large dataset
我沒有使用Python的經驗,並且我正在嘗試將其用於對非常大的數據集(1000萬個案例)進行統計分析,因為其他選項(SPSS和R)無法處理授權硬件上的數據集。
在此數據集中,有許多分類變量(Diagnosis1,Diagnosis2 ... Diagnosis30)和Event變量(因變量)。
案例列為行。
像這樣的東西
Diagnosis1 Diagnosis2 Diagnosis3 Event
1 0 0 1
0 1 0 0
0 1 0 0
....等等
我可以加載數據並用此查看 -
import pandas as pd
import numpy as np
NRD_Data = pd.read_csv('NRD_DL.csv')
NRD_Data.head()
但我仍然堅持如何構建2x2表並對表執行Chi Square測試。
Diagnosis1=1 Diagnosis1=0
Event=1 100 12
Event=0 80 45
類似於在SPSS上運行交叉表以比較分類值的東西是期望的結果。
使用pd.crosstab
獲取所需的矩陣,然后就可以進行Chi Square測試
l=['Diagnosis1', 'Diagnosis2', 'Diagnosis3']
d=[]
for i in l:
d.append(pd.crosstab(df['Event'],df[i]))
d[0]
Out[569]:
Diagnosis1 0 1
Event
0 2 0
1 0 1
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.