[英]How to remove unnecessary variables of a dataframe to predict a binary output?
我有一個包含大量變量的數據集,輸出可以是A
也可以not A
。 如何刪除對預測輸出無用的變量。
我有身份貸款的數據集loan_status
目前Fully Paid
或Charged Off
由於數據集是非常大的,我想保持唯一,這將有助於我預測輸出的基本變量。
>>> subset.head()
id member_id loan_amnt funded_amnt funded_amnt_inv term int_rate installment grade sub_grade emp_title emp_length home_ownership annual_inc verification_status issue_d loan_status pymnt_plan url desc purpose title zip_code addr_state dti delinq_2yrs earliest_cr_line inq_last_6mths mths_since_last_delinq mths_since_last_record open_acc pub_rec revol_bal revol_util total_acc initial_list_status out_prncp out_prncp_inv total_pymnt total_pymnt_inv total_rec_prncp total_rec_int total_rec_late_fee recoveries collection_recovery_fee last_pymnt_d last_pymnt_amnt next_pymnt_d last_credit_pull_d collections_12_mths_ex_med mths_since_last_major_derog policy_code application_type annual_inc_joint dti_joint verification_status_joint acc_now_delinq tot_coll_amt tot_cur_bal open_acc_6m open_act_il open_il_12m open_il_24m mths_since_rcnt_il total_bal_il il_util open_rv_12m open_rv_24m max_bal_bc all_util total_rev_hi_lim inq_fi total_cu_tl inq_last_12m acc_open_past_24mths avg_cur_bal bc_open_to_buy bc_util chargeoff_within_12_mths delinq_amnt mo_sin_old_il_acct mo_sin_old_rev_tl_op mo_sin_rcnt_rev_tl_op mo_sin_rcnt_tl mort_acc mths_since_recent_bc mths_since_recent_bc_dlq mths_since_recent_inq mths_since_recent_revol_delinq num_accts_ever_120_pd num_actv_bc_tl num_actv_rev_tl num_bc_sats num_bc_tl num_il_tl num_op_rev_tl num_rev_accts num_rev_tl_bal_gt_0 num_sats num_tl_120dpd_2m num_tl_30dpd num_tl_90g_dpd_24m num_tl_op_past_12m pct_tl_nvr_dlq percent_bc_gt_75 pub_rec_bankruptcies tax_liens tot_hi_cred_lim total_bal_ex_mort total_bc_limit total_il_high_credit_limit revol_bal_joint sec_app_earliest_cr_line sec_app_inq_last_6mths sec_app_mort_acc sec_app_open_acc sec_app_revol_util sec_app_open_act_il sec_app_num_rev_accts sec_app_chargeoff_within_12_mths sec_app_collections_12_mths_ex_med sec_app_mths_since_last_major_derog hardship_flag hardship_type hardship_reason hardship_status deferral_term hardship_amount hardship_start_date hardship_end_date payment_plan_start_date hardship_length hardship_dpd hardship_loan_status orig_projected_additional_accrued_interest hardship_payoff_balance_amount hardship_last_payment_amount debt_settlement_flag debt_settlement_flag_date settlement_status settlement_date settlement_amount settlement_percentage settlement_term
11 NaN NaN 10000 10000 10000.0 60 months 14.07% 233.05 C C3 Teacher 4 years RENT 42000.0 Source Verified Mar-2018 Fully Paid n NaN NaN major_purchase Major purchase 341xx FL 24.69 0 Oct-2004 0 32.0 NaN 17 0 707 15.7% 34 w 0.0 0.0 11153.669505 11153.67 10000.00 1153.67 0.0 0.0 0.0 Mar-2019 10.38 NaN Jun-2019 0 40.0 1 Individual NaN NaN NaN 0 0 93913 0 15 0 0 54.0 93206 116.0 0 1 707 111.0 4500 0 0 0 1 5524.0 3793.0 15.7 0 0 161.0 88 18 18 0 18.0 32.0 18.0 32.0 14 1 1 2 4 30 2 4 1 17 0.0 0 0 0 43.8 0.0 0 0 84930 93913 4500 80430 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N NaN NaN NaN NaN NaN NaN
16 NaN NaN 7000 7000 7000.0 36 months 11.98% 232.44 B B5 Parole < 1 year MORTGAGE 40000.0 Verified Mar-2018 Fully Paid n NaN NaN home_improvement Home improvement 797xx TX 20.25 0 Mar-2007 0 60.0 NaN 13 0 5004 36% 29 w 0.0 0.0 7693.314943 7693.31 7000.00 693.31 0.0 0.0 0.0 Mar-2019 5364.25 NaN Mar-2019 0 60.0 1 Individual NaN NaN NaN 0 0 131726 1 6 0 2 16.0 126722 102.0 2 2 3944 90.0 13900 2 1 4 4 10977.0 4996.0 50.0 0 0 122.0 132 1 1 0 10.0 64.0 5.0 60.0 3 2 2 3 4 19 7 10 2 13 0.0 0 0 2 89.7 33.3 0 0 132817 131726 10000 118917 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N NaN NaN NaN NaN NaN NaN
17 NaN NaN 20000 20000 20000.0 60 months 26.77% 607.97 E E5 Mental Health Provider 3 years RENT 33500.0 Not Verified Mar-2018 Charged Off n NaN NaN house Home buying 604xx IL 24.40 0 Aug-2008 1 NaN NaN 27 0 7364 46% 34 w 0.0 0.0 7236.150000 7236.15 2195.37 5040.78 0.0 0.0 0.0 Apr-2019 607.97 NaN Jun-2019 0 NaN 1 Individual NaN NaN NaN 0 308 160804 0 21 0 0 29.0 153440 118.0 0 2 2607 110.0 16000 0 0 2 2 5956.0 2767.0 68.6 0 0 115.0 115 20 20 0 26.0 NaN 5.0 NaN 0 3 6 3 3 27 6 7 6 27 0.0 0 0 0 100.0 33.3 0 0 146514 160804 8800 130514 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N NaN NaN NaN NaN NaN NaN
20 NaN NaN 21000 21000 21000.0 60 months 20.39% 560.94 D D4 Machine operator 10+ years OWN 85000.0 Source Verified Mar-2018 Fully Paid n NaN NaN house Home buying 135xx NY 15.76 1 Nov-2008 0 2.0 NaN 15 0 14591 34.2% 27 w 0.0 0.0 24217.170915 24217.17 21000.00 3217.17 0.0 0.0 0.0 Feb-2019 183.26 NaN May-2019 0 NaN 1 Individual NaN NaN NaN 0 0 128270 1 1 2 2 7.0 37076 NaN 2 5 5354 34.0 42700 6 4 13 8 8551.0 16684.0 38.4 0 0 67.0 112 4 4 3 4.0 NaN 0.0 2.0 0 5 7 6 10 3 12 21 7 15 0.0 0 0 4 92.6 16.7 0 0 172433 51667 27100 39733 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N NaN NaN NaN NaN NaN NaN
...
我無法找到減少無用變量數量的方法。 我只使用dataframe.describe()
來了解更多關於它們的信息。 但是,即使您嘗試匯總所有貸款,首先,我不確定它是否有助於我進行匯總,因為我仍然有很多變量,其次,我不確定我是否正確進行了計算。 事實上,你可以在那里讀到:
id member_id loan_amnt funded_amnt funded_amnt_inv term int_rate installment grade sub_grade emp_title emp_length home_ownership annual_inc verification_status issue_d loan_status pymnt_plan url desc purpose title zip_code addr_state dti delinq_2yrs earliest_cr_line inq_last_6mths mths_since_last_delinq mths_since_last_record open_acc pub_rec revol_bal revol_util total_acc initial_list_status out_prncp out_prncp_inv total_pymnt total_pymnt_inv total_rec_prncp total_rec_int total_rec_late_fee recoveries collection_recovery_fee last_pymnt_d last_pymnt_amnt next_pymnt_d last_credit_pull_d collections_12_mths_ex_med mths_since_last_major_derog policy_code application_type annual_inc_joint dti_joint verification_status_joint acc_now_delinq tot_coll_amt tot_cur_bal open_acc_6m open_act_il open_il_12m open_il_24m mths_since_rcnt_il total_bal_il il_util open_rv_12m open_rv_24m max_bal_bc all_util total_rev_hi_lim inq_fi total_cu_tl inq_last_12m acc_open_past_24mths avg_cur_bal bc_open_to_buy bc_util chargeoff_within_12_mths delinq_amnt mo_sin_old_il_acct mo_sin_old_rev_tl_op mo_sin_rcnt_rev_tl_op mo_sin_rcnt_tl mort_acc mths_since_recent_bc mths_since_recent_bc_dlq mths_since_recent_inq mths_since_recent_revol_delinq num_accts_ever_120_pd num_actv_bc_tl num_actv_rev_tl num_bc_sats num_bc_tl num_il_tl num_op_rev_tl num_rev_accts num_rev_tl_bal_gt_0 num_sats num_tl_120dpd_2m num_tl_30dpd num_tl_90g_dpd_24m num_tl_op_past_12m pct_tl_nvr_dlq percent_bc_gt_75 pub_rec_bankruptcies tax_liens tot_hi_cred_lim total_bal_ex_mort total_bc_limit total_il_high_credit_limit revol_bal_joint sec_app_earliest_cr_line sec_app_inq_last_6mths sec_app_mort_acc sec_app_open_acc sec_app_revol_util sec_app_open_act_il sec_app_num_rev_accts sec_app_chargeoff_within_12_mths sec_app_collections_12_mths_ex_med sec_app_mths_since_last_major_derog hardship_flag hardship_type hardship_reason hardship_status deferral_term hardship_amount hardship_start_date hardship_end_date payment_plan_start_date hardship_length hardship_dpd hardship_loan_status orig_projected_additional_accrued_interest hardship_payoff_balance_amount hardship_last_payment_amount debt_settlement_flag debt_settlement_flag_date settlement_status settlement_date settlement_amount settlement_percentage settlement_term
count 0.0 0.0 110909.000000 110909.000000 110909.000000 110909 110909 110909.000000 110909 110909 101148 101310 110909 1.109090e+05 110909 110909 110909 110909 0.0 0.0 110909 110909 110909 110909 110616.000000 110909.000000 110909 110909.000000 50074.000000 16811.000000 110909.000000 110909.000000 1.109090e+05 110739 110909.000000 110909 110909.0 110909.0 110909.000000 110909.000000 110909.000000 110909.000000 110909.000000 110909.000000 110909.000000 110201 110909.000000 0.0 110909 110909.000000 27474.000000 110909.0 110909 14193.000000 14193.000000 13876 110909.000000 1.109090e+05 1.109090e+05 110909.000000 110909.000000 110909.000000 110909.000000 106966.000000 1.109090e+05 92546.000000 110909.000000 110909.000000 110909.000000 110877.000000 1.109090e+05 110909.000000 110909.000000 110909.000000 110909.000000 110903.000000 109104.000000 109017.000000 110909.000000 110909.000000 106966.000000 110909.000000 110909.000000 110909.000000 110909.000000 109225.000000 23011.000000 101505.000000 32915.000000 110909.000000 110909.000000 110909.000000 110909.000000 110909.000000 110909.000000 110909.000000 110909.000000 110909.000000 110909.000000 107934.0 110909.000000 110909.000000 110909.000000 110908.000000 109104.000000 110909.000000 110909.000000 1.109090e+05 1.109090e+05 110909.000000 1.109090e+05 14193.000000 14193 14193.000000 14193.000000 14193.000000 13921.000000 14193.000000 14193.000000 14193.000000 14193.000000 5062.000000 110909 131 131 131 131.0 131.000000 131 131 131 131.0 131.000000 131 26.000000 131.000000 131.000000 110909 1470 1470 1470 1470.000000 1470.000000 1470.000000
unique NaN NaN NaN NaN NaN 2 74 NaN 7 34 22652 11 4 NaN 3 6 2 1 NaN NaN 13 12 867 50 NaN NaN 614 NaN NaN NaN NaN NaN NaN 1042 NaN 2 NaN NaN NaN NaN NaN NaN NaN NaN NaN 18 NaN 0.0 20 NaN NaN NaN 2 NaN NaN 3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 510 NaN NaN NaN NaN NaN NaN NaN NaN NaN 1 1 8 2 NaN NaN 11 9 9 NaN NaN 4 NaN NaN NaN 2 12 3 13 NaN NaN NaN
top NaN NaN NaN NaN NaN 36 months 11.98% NaN B B5 Manager 10+ years MORTGAGE NaN Source Verified Apr-2018 Fully Paid n NaN NaN debt_consolidation Debt consolidation 945xx CA NaN NaN Aug-2005 NaN NaN NaN NaN NaN NaN 0% NaN w NaN NaN NaN NaN NaN NaN NaN NaN NaN Jan-2019 NaN NaN Jun-2019 NaN NaN NaN Individual NaN NaN Not Verified NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN Aug-2005 NaN NaN NaN NaN NaN NaN NaN NaN NaN N INTEREST ONLY-3 MONTHS DEFERRAL UNEMPLOYMENT BROKEN NaN NaN Mar-2019 Apr-2019 Mar-2019 NaN NaN Late (16-30 days) NaN NaN NaN N Jun-2019 ACTIVE May-2019 NaN NaN NaN
freq NaN NaN NaN NaN NaN 81370 3485 NaN 30833 6964 2030 36774 54812 NaN 44735 29655 87515 110909 NaN NaN 56217 56217 1223 15847 NaN NaN 987 NaN NaN NaN NaN NaN NaN 1843 NaN 92893 NaN NaN NaN NaN NaN NaN NaN NaN NaN 9952 NaN NaN 47569 NaN NaN NaN 96716 NaN NaN 6353 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 164 NaN NaN NaN NaN NaN NaN NaN NaN NaN 110909 131 55 105 NaN NaN 27 27 34 NaN NaN 68 NaN NaN NaN 109439 374 1182 320 NaN NaN NaN
mean NaN NaN 15133.124228 15133.124228 15129.913485 NaN NaN 451.703280 NaN NaN NaN NaN NaN 7.866525e+04 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 18.658485 0.240945 NaN 0.543842 36.703838 82.156683 11.373595 0.162151 1.414609e+04 NaN 23.704154 NaN 0.0 0.0 13093.720734 13090.819511 11834.579108 1065.864157 1.193620 192.083862 34.107295 NaN 8988.970489 NaN NaN 0.018060 45.958725 1.0 NaN 123220.229856 19.046298 NaN 0.000045 3.007498e+02 1.487752e+05 1.048427 2.624494 0.845035 1.801720 18.464428 3.570383e+04 71.071878 1.399805 2.941727 5191.785689 53.011716 3.665310e+04 1.330749 1.696274 2.404187 5.083699 14573.002065 15451.859776 45.630734 0.008728 3.745034 121.109044 171.096953 13.539704 7.627740 1.476652 23.266752 40.444831 6.617723 37.548321 0.499932 3.305349 4.951492 4.712936 7.286199 8.664689 8.084673 13.359015 4.904345 11.346311 0.0 0.000045 0.066108 2.404593 94.636698 29.690390 0.145534 0.016464 1.886942e+05 5.006460e+04 25196.060734 4.486298e+04 32620.767914 NaN 0.753047 1.609244 11.366589 55.994512 2.893328 12.913619 0.052913 0.083492 36.830304 NaN NaN NaN NaN 3.0 194.040611 NaN NaN NaN 3.0 15.007634 NaN 677.778462 14977.221908 197.404962 NaN NaN NaN NaN 7235.872456 51.259034 18.638776
std NaN NaN 10063.626492 10063.626492 10062.605730 NaN NaN 291.529754 NaN NaN NaN NaN NaN 8.273838e+04 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 20.105508 0.759381 NaN 0.791792 21.864945 23.731842 5.938104 0.445418 2.109029e+04 NaN 12.636174 NaN 0.0 0.0 10677.374875 10675.875613 10274.588973 1127.992027 8.430334 844.626003 150.986459 NaN 9417.206405 NaN NaN 0.149077 21.220192 0.0 NaN 61899.006621 8.171933 NaN 0.006714 2.447485e+04 1.670928e+05 1.212451 2.877455 1.041107 1.708049 23.830165 4.476172e+04 22.776782 1.595896 2.734340 5728.066547 22.057862 3.675638e+04 1.715969 2.911280 2.682558 3.482714 17992.870300 20176.943227 29.912941 0.107913 340.178661 54.487416 97.531613 17.183313 8.446866 1.798038 32.073651 22.185204 5.688223 22.098123 1.393569 2.312572 3.307021 3.167090 4.704991 7.612502 4.949893 8.197814 3.218891 5.928676 0.0 0.006714 0.438064 2.050780 8.906956 34.368549 0.359703 0.254046 1.863843e+05 5.154504e+04 25322.554746 4.691188e+04 28067.364794 NaN 1.108586 1.836520 6.574821 26.571334 3.085046 8.499611 0.510133 0.386138 24.069226 NaN NaN NaN NaN 0.0 144.144733 NaN NaN NaN 0.0 8.734103 NaN 445.752949 9097.533521 207.337176 NaN NaN NaN NaN 5009.981486 8.231359 6.806635
min NaN NaN 1000.000000 1000.000000 1000.000000 NaN NaN 30.120000 NaN NaN NaN NaN NaN 0.000000e+00 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.000000 0.000000 NaN 0.000000 0.000000 3.000000 0.000000 0.000000 0.000000e+00 NaN 2.000000 NaN 0.0 0.0 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 NaN 0.000000 NaN NaN 0.000000 0.000000 1.0 NaN 15400.000000 0.190000 NaN 0.000000 0.000000e+00 0.000000e+00 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000e+00 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000e+00 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 1.000000 2.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.000000 0.000000 0.000000 0.0 0.000000 0.000000 0.000000 12.500000 0.000000 0.000000 0.000000 0.000000e+00 0.000000e+00 0.000000 0.000000e+00 0.000000 NaN 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 NaN NaN NaN NaN 3.0 5.950000 NaN NaN NaN 3.0 0.000000 NaN 151.860000 424.110000 0.070000 NaN NaN NaN NaN 413.930000 29.920000 1.000000
25% NaN NaN 7200.000000 7200.000000 7200.000000 NaN NaN 232.750000 NaN NaN NaN NaN NaN 4.595300e+04 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 10.400000 0.000000 NaN 0.000000 18.000000 67.000000 7.000000 0.000000 4.085000e+03 NaN 15.000000 NaN 0.0 0.0 5007.935312 5007.250000 3500.000000 292.490000 0.000000 0.000000 0.000000 NaN 823.590000 NaN NaN 0.000000 29.000000 1.0 NaN 83862.000000 13.000000 NaN 0.000000 0.000000e+00 2.739200e+04 0.000000 1.000000 0.000000 1.000000 6.000000 8.377000e+03 58.000000 0.000000 1.000000 1747.000000 38.000000 1.530000e+04 0.000000 0.000000 1.000000 3.000000 2958.000000 2983.000000 19.900000 0.000000 0.000000 83.000000 104.000000 4.000000 3.000000 0.000000 6.000000 23.000000 2.000000 20.000000 0.000000 2.000000 3.000000 3.000000 4.000000 4.000000 5.000000 8.000000 3.000000 7.000000 0.0 0.000000 0.000000 1.000000 92.300000 0.000000 0.000000 0.000000 5.299800e+04 1.849600e+04 8900.000000 1.466100e+04 14026.000000 NaN 0.000000 0.000000 7.000000 36.500000 1.000000 7.000000 0.000000 0.000000 15.000000 NaN NaN NaN NaN 3.0 90.360000 NaN NaN NaN 3.0 7.000000 NaN 338.100000 7428.245000 40.040000 NaN NaN NaN NaN 3466.597500 45.000000 18.000000
50% NaN NaN 12000.000000 12000.000000 12000.000000 NaN NaN 368.690000 NaN NaN NaN NaN NaN 6.500000e+04 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 16.780000 0.000000 NaN 0.000000 34.000000 86.000000 10.000000 0.000000 9.061000e+03 NaN 22.000000 NaN 0.0 0.0 10297.070860 10294.240000 10000.000000 696.570000 0.000000 0.000000 0.000000 NaN 6119.670000 NaN NaN 0.000000 46.000000 1.0 NaN 110000.000000 18.560000 NaN 0.000000 0.000000e+00 8.415200e+04 1.000000 2.000000 1.000000 1.000000 11.000000 2.329500e+04 74.000000 1.000000 2.000000 3859.000000 54.000000 2.710000e+04 1.000000 0.000000 2.000000 4.000000 7869.000000 8439.000000 43.100000 0.000000 0.000000 128.000000 154.000000 8.000000 5.000000 1.000000 13.000000 39.000000 5.000000 35.000000 0.000000 3.000000 4.000000 4.000000 6.000000 7.000000 7.000000 12.000000 4.000000 10.000000 0.0 0.000000 0.000000 2.000000 100.000000 18.200000 0.000000 0.000000 1.248450e+05 3.653800e+04 17800.000000 3.328500e+04 25326.000000 NaN 0.000000 1.000000 10.000000 57.800000 2.000000 11.000000 0.000000 0.000000 35.000000 NaN NaN NaN NaN 3.0 146.390000 NaN NaN NaN 3.0 17.000000 NaN 367.950000 15652.360000 146.070000 NaN NaN NaN NaN 5891.670000 45.230000 20.000000
75% NaN NaN 20000.000000 20000.000000 20000.000000 NaN NaN 620.660000 NaN NaN NaN NaN NaN 9.500000e+04 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 24.122500 0.000000 NaN 1.000000 53.000000 101.000000 14.000000 0.000000 1.725500e+04 NaN 31.000000 NaN 0.0 0.0 18766.242514 18755.060000 17500.000000 1443.380000 0.000000 0.000000 0.000000 NaN 13912.100000 NaN NaN 0.000000 63.000000 1.0 NaN 148000.000000 24.650000 NaN 0.000000 0.000000e+00 2.285040e+05 2.000000 3.000000 1.000000 3.000000 21.000000 4.672800e+04 87.000000 2.000000 4.000000 6943.000000 69.000000 4.640000e+04 2.000000 2.000000 3.000000 7.000000 20477.000000 19997.000000 70.500000 0.000000 0.000000 152.000000 220.000000 17.000000 10.000000 2.000000 27.000000 57.000000 10.000000 53.000000 0.000000 4.000000 6.000000 6.000000 9.000000 11.000000 10.000000 17.000000 6.000000 14.000000 0.0 0.000000 0.000000 3.000000 100.000000 50.000000 0.000000 0.000000 2.771000e+05 6.409300e+04 33000.000000 6.074100e+04 41986.000000 NaN 1.000000 3.000000 15.000000 77.300000 4.000000 17.000000 0.000000 0.000000 57.000000 NaN NaN NaN NaN 3.0 279.065000 NaN NaN NaN 3.0 23.000000 NaN 1193.032500 22114.265000 291.190000 NaN NaN NaN NaN 10090.202500 60.000000 24.000000
max NaN NaN 40000.000000 40000.000000 40000.000000 NaN NaN 1628.080000 NaN NaN NaN NaN NaN 9.300000e+06 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 999.000000 19.000000 NaN 5.000000 226.000000 126.000000 86.000000 52.000000 1.113293e+06 NaN 129.000000 NaN 0.0 0.0 51653.389338 51653.390000 40000.000000 13842.210000 320.700000 33122.070000 5961.972600 NaN 41353.670000 NaN NaN 8.000000 226.000000 1.0 NaN 1000000.000000 39.980000 NaN 1.000000 6.214661e+06 4.151547e+06 13.000000 49.000000 6.000000 16.000000 383.000000 1.378570e+06 309.000000 22.000000 28.000000 389468.000000 175.000000 1.680300e+06 32.000000 40.000000 67.000000 33.000000 393082.000000 331957.000000 146.600000 9.000000 65000.000000 518.000000 806.000000 368.000000 260.000000 24.000000 551.000000 152.000000 24.000000 152.000000 36.000000 50.000000 72.000000 59.000000 66.000000 105.000000 72.000000 94.000000 65.000000 82.000000 0.0 1.000000 17.000000 23.000000 100.000000 100.000000 5.000000 52.000000 4.358152e+06 1.394335e+06 460900.000000 1.380346e+06 280272.000000 NaN 6.000000 17.000000 58.000000 212.600000 35.000000 75.000000 20.000000 11.000000 117.000000 NaN NaN NaN NaN 3.0 649.970000 NaN NaN NaN 3.0 29.000000 NaN 1369.860000 32300.260000 1072.990000 NaN NaN NaN NaN 28503.000000 80.000000 24.000000
當您看到前 4 行(並且有很多行)時,loan_amnt 計數似乎不太可能是 110909.000000。
我使用了我在此處下載的 csv 文件(2018 年的銀行貸款。它們分為四個季度)。 使用 Python 3 可以通過執行以下操作獲得:
import pandas as pd
# Control delimiters, rows, column names with read_csv (see later)
data_Q1 = pd.read_csv("LoanStats_2018Q1.csv", skiprows=1, skipfooter=2, engine='python')
data_Q2 = pd.read_csv("LoanStats_2018Q2.csv", skiprows=1, skipfooter=2, engine='python')
data_Q3 = pd.read_csv("LoanStats_2018Q2.csv", skiprows=1, skipfooter=2, engine='python')
data_Q4 = pd.read_csv("LoanStats_2018Q2.csv", skiprows=1, skipfooter=2, engine='python')
frames = [data_Q1,data_Q2,data_Q3,data_Q4]
result = pd.concat(frames)
subset = result.loc[result["loan_status"].isin(['Charged Off','Fully Paid'])]
我認為遞歸特征消除(RFE)可能是您正在尋找的。 它是一種擬合模型並去除最弱特征的特征選擇方法。 特征按模型的 coef_ 或 feature_importances_ 屬性排序。 通過遞歸地消除每個循環的一些特征特征,RFE 試圖消除模型中可能存在的依賴關系和共線性。 我實現了交叉驗證的 RFE,它也嘗試選擇要使用的最佳功能數量。
下面的代碼與我使用過的代碼類似,盡管我還沒有在您的特定數據上嘗試過(Lending Club 試圖讓我創建一個帳戶,但我不會這樣做)。 顯然,您可以更改任何參數以滿足您的需要。
from sklearn.feature_selection import RFECV, RFE
from sklearn.ensemble import RandomForestClassifier
import numpy as np
# Recursive Feature Elimination with Cross Validation
# Define parameters
sample_size = 5000
folds = 5
elim_step = 1
min_features = 10
max_features = 50
SEED = 101
# Use a sample of the data for speed
status_map = {"Fully Paid": 1, "Charged Off": 0}
select_df = (result.sample(n=sample_size, replace=True, random_state=SEED)
.replace({"loan_status": status_map}))
select_y = select_df.pop("loan_status")
# Fit a random forest classifier using RFECV
estimator = RandomForestClassifier(n_estimators=50,
max_depth=5,
n_jobs=-1,
random_state=SEED)
selector = RFECV(estimator, step=elim_step, cv=folds,
min_features_to_select=min_features,
scoring="roc_auc", n_jobs=-1, verbose=0)
selector = selector.fit(select_df, select_y)
# If there are still too many features, use RFE with set number of features
if selector.n_features_ <= max_features:
n = selector.n_features_
else:
selector = RFE(estimator, max_features, step=elim_step)
selector = selector.fit(select_df, select_y)
n = max_features
# Create a dataframe with the reduced set of columns
features = np.array(select_df.columns[selector.support_].tolist())
subset = result[features]
print(f"Using {n} features")
print(subset.head())
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.