簡體   English   中英

如何刪除數據幀的不必要變量以預測二進制輸出?

[英]How to remove unnecessary variables of a dataframe to predict a binary output?

我有一個包含大量變量的數據集,輸出可以是A也可以not A 如何刪除對預測輸出無用的變量。

例子

我有身份貸款的數據集loan_status目前Fully PaidCharged Off由於數據集是非常大的,我想保持唯一,這將有助於我預測輸出的基本變量。

>>> subset.head()

    id  member_id   loan_amnt   funded_amnt funded_amnt_inv term    int_rate    installment grade   sub_grade   emp_title   emp_length  home_ownership  annual_inc  verification_status issue_d loan_status pymnt_plan  url desc    purpose title   zip_code    addr_state  dti delinq_2yrs earliest_cr_line    inq_last_6mths  mths_since_last_delinq  mths_since_last_record  open_acc    pub_rec revol_bal   revol_util  total_acc   initial_list_status out_prncp   out_prncp_inv   total_pymnt total_pymnt_inv total_rec_prncp total_rec_int   total_rec_late_fee  recoveries  collection_recovery_fee last_pymnt_d    last_pymnt_amnt next_pymnt_d    last_credit_pull_d  collections_12_mths_ex_med  mths_since_last_major_derog policy_code application_type    annual_inc_joint    dti_joint   verification_status_joint   acc_now_delinq  tot_coll_amt    tot_cur_bal open_acc_6m open_act_il open_il_12m open_il_24m mths_since_rcnt_il  total_bal_il    il_util open_rv_12m open_rv_24m max_bal_bc  all_util    total_rev_hi_lim    inq_fi  total_cu_tl inq_last_12m    acc_open_past_24mths    avg_cur_bal bc_open_to_buy  bc_util chargeoff_within_12_mths    delinq_amnt mo_sin_old_il_acct  mo_sin_old_rev_tl_op    mo_sin_rcnt_rev_tl_op   mo_sin_rcnt_tl  mort_acc    mths_since_recent_bc    mths_since_recent_bc_dlq    mths_since_recent_inq   mths_since_recent_revol_delinq  num_accts_ever_120_pd   num_actv_bc_tl  num_actv_rev_tl num_bc_sats num_bc_tl   num_il_tl   num_op_rev_tl   num_rev_accts   num_rev_tl_bal_gt_0 num_sats    num_tl_120dpd_2m    num_tl_30dpd    num_tl_90g_dpd_24m  num_tl_op_past_12m  pct_tl_nvr_dlq  percent_bc_gt_75    pub_rec_bankruptcies    tax_liens   tot_hi_cred_lim total_bal_ex_mort   total_bc_limit  total_il_high_credit_limit  revol_bal_joint sec_app_earliest_cr_line    sec_app_inq_last_6mths  sec_app_mort_acc    sec_app_open_acc    sec_app_revol_util  sec_app_open_act_il sec_app_num_rev_accts   sec_app_chargeoff_within_12_mths    sec_app_collections_12_mths_ex_med  sec_app_mths_since_last_major_derog hardship_flag   hardship_type   hardship_reason hardship_status deferral_term   hardship_amount hardship_start_date hardship_end_date   payment_plan_start_date hardship_length hardship_dpd    hardship_loan_status    orig_projected_additional_accrued_interest  hardship_payoff_balance_amount  hardship_last_payment_amount    debt_settlement_flag    debt_settlement_flag_date   settlement_status   settlement_date settlement_amount   settlement_percentage   settlement_term
11  NaN NaN 10000   10000   10000.0 60 months   14.07%  233.05  C   C3  Teacher 4 years RENT    42000.0 Source Verified Mar-2018    Fully Paid  n   NaN NaN major_purchase  Major purchase  341xx   FL  24.69   0   Oct-2004    0   32.0    NaN 17  0   707 15.7%   34  w   0.0 0.0 11153.669505    11153.67    10000.00    1153.67 0.0 0.0 0.0 Mar-2019    10.38   NaN Jun-2019    0   40.0    1   Individual  NaN NaN NaN 0   0   93913   0   15  0   0   54.0    93206   116.0   0   1   707 111.0   4500    0   0   0   1   5524.0  3793.0  15.7    0   0   161.0   88  18  18  0   18.0    32.0    18.0    32.0    14  1   1   2   4   30  2   4   1   17  0.0 0   0   0   43.8    0.0 0   0   84930   93913   4500    80430   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N   NaN NaN NaN NaN NaN NaN
16  NaN NaN 7000    7000    7000.0  36 months   11.98%  232.44  B   B5  Parole  < 1 year    MORTGAGE    40000.0 Verified    Mar-2018    Fully Paid  n   NaN NaN home_improvement    Home improvement    797xx   TX  20.25   0   Mar-2007    0   60.0    NaN 13  0   5004    36% 29  w   0.0 0.0 7693.314943 7693.31 7000.00 693.31  0.0 0.0 0.0 Mar-2019    5364.25 NaN Mar-2019    0   60.0    1   Individual  NaN NaN NaN 0   0   131726  1   6   0   2   16.0    126722  102.0   2   2   3944    90.0    13900   2   1   4   4   10977.0 4996.0  50.0    0   0   122.0   132 1   1   0   10.0    64.0    5.0 60.0    3   2   2   3   4   19  7   10  2   13  0.0 0   0   2   89.7    33.3    0   0   132817  131726  10000   118917  NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N   NaN NaN NaN NaN NaN NaN
17  NaN NaN 20000   20000   20000.0 60 months   26.77%  607.97  E   E5  Mental Health Provider  3 years RENT    33500.0 Not Verified    Mar-2018    Charged Off n   NaN NaN house   Home buying 604xx   IL  24.40   0   Aug-2008    1   NaN NaN 27  0   7364    46% 34  w   0.0 0.0 7236.150000 7236.15 2195.37 5040.78 0.0 0.0 0.0 Apr-2019    607.97  NaN Jun-2019    0   NaN 1   Individual  NaN NaN NaN 0   308 160804  0   21  0   0   29.0    153440  118.0   0   2   2607    110.0   16000   0   0   2   2   5956.0  2767.0  68.6    0   0   115.0   115 20  20  0   26.0    NaN 5.0 NaN 0   3   6   3   3   27  6   7   6   27  0.0 0   0   0   100.0   33.3    0   0   146514  160804  8800    130514  NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N   NaN NaN NaN NaN NaN NaN
20  NaN NaN 21000   21000   21000.0 60 months   20.39%  560.94  D   D4  Machine operator    10+ years   OWN 85000.0 Source Verified Mar-2018    Fully Paid  n   NaN NaN house   Home buying 135xx   NY  15.76   1   Nov-2008    0   2.0 NaN 15  0   14591   34.2%   27  w   0.0 0.0 24217.170915    24217.17    21000.00    3217.17 0.0 0.0 0.0 Feb-2019    183.26  NaN May-2019    0   NaN 1   Individual  NaN NaN NaN 0   0   128270  1   1   2   2   7.0 37076   NaN 2   5   5354    34.0    42700   6   4   13  8   8551.0  16684.0 38.4    0   0   67.0    112 4   4   3   4.0 NaN 0.0 2.0 0   5   7   6   10  3   12  21  7   15  0.0 0   0   4   92.6    16.7    0   0   172433  51667   27100   39733   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN N   NaN NaN NaN NaN NaN NaN
...

我的嘗試

我無法找到減少無用變量數量的方法。 我只使用dataframe.describe()來了解更多關於它們的信息。 但是,即使您嘗試匯總所有貸款,首先,我不確定它是否有助於我進行匯總,因為我仍然有很多變量,其次,我不確定我是否正確進行了計算。 事實上,你可以在那里讀到:

    id  member_id   loan_amnt   funded_amnt funded_amnt_inv term    int_rate    installment grade   sub_grade   emp_title   emp_length  home_ownership  annual_inc  verification_status issue_d loan_status pymnt_plan  url desc    purpose title   zip_code    addr_state  dti delinq_2yrs earliest_cr_line    inq_last_6mths  mths_since_last_delinq  mths_since_last_record  open_acc    pub_rec revol_bal   revol_util  total_acc   initial_list_status out_prncp   out_prncp_inv   total_pymnt total_pymnt_inv total_rec_prncp total_rec_int   total_rec_late_fee  recoveries  collection_recovery_fee last_pymnt_d    last_pymnt_amnt next_pymnt_d    last_credit_pull_d  collections_12_mths_ex_med  mths_since_last_major_derog policy_code application_type    annual_inc_joint    dti_joint   verification_status_joint   acc_now_delinq  tot_coll_amt    tot_cur_bal open_acc_6m open_act_il open_il_12m open_il_24m mths_since_rcnt_il  total_bal_il    il_util open_rv_12m open_rv_24m max_bal_bc  all_util    total_rev_hi_lim    inq_fi  total_cu_tl inq_last_12m    acc_open_past_24mths    avg_cur_bal bc_open_to_buy  bc_util chargeoff_within_12_mths    delinq_amnt mo_sin_old_il_acct  mo_sin_old_rev_tl_op    mo_sin_rcnt_rev_tl_op   mo_sin_rcnt_tl  mort_acc    mths_since_recent_bc    mths_since_recent_bc_dlq    mths_since_recent_inq   mths_since_recent_revol_delinq  num_accts_ever_120_pd   num_actv_bc_tl  num_actv_rev_tl num_bc_sats num_bc_tl   num_il_tl   num_op_rev_tl   num_rev_accts   num_rev_tl_bal_gt_0 num_sats    num_tl_120dpd_2m    num_tl_30dpd    num_tl_90g_dpd_24m  num_tl_op_past_12m  pct_tl_nvr_dlq  percent_bc_gt_75    pub_rec_bankruptcies    tax_liens   tot_hi_cred_lim total_bal_ex_mort   total_bc_limit  total_il_high_credit_limit  revol_bal_joint sec_app_earliest_cr_line    sec_app_inq_last_6mths  sec_app_mort_acc    sec_app_open_acc    sec_app_revol_util  sec_app_open_act_il sec_app_num_rev_accts   sec_app_chargeoff_within_12_mths    sec_app_collections_12_mths_ex_med  sec_app_mths_since_last_major_derog hardship_flag   hardship_type   hardship_reason hardship_status deferral_term   hardship_amount hardship_start_date hardship_end_date   payment_plan_start_date hardship_length hardship_dpd    hardship_loan_status    orig_projected_additional_accrued_interest  hardship_payoff_balance_amount  hardship_last_payment_amount    debt_settlement_flag    debt_settlement_flag_date   settlement_status   settlement_date settlement_amount   settlement_percentage   settlement_term
count   0.0 0.0 110909.000000   110909.000000   110909.000000   110909  110909  110909.000000   110909  110909  101148  101310  110909  1.109090e+05    110909  110909  110909  110909  0.0 0.0 110909  110909  110909  110909  110616.000000   110909.000000   110909  110909.000000   50074.000000    16811.000000    110909.000000   110909.000000   1.109090e+05    110739  110909.000000   110909  110909.0    110909.0    110909.000000   110909.000000   110909.000000   110909.000000   110909.000000   110909.000000   110909.000000   110201  110909.000000   0.0 110909  110909.000000   27474.000000    110909.0    110909  14193.000000    14193.000000    13876   110909.000000   1.109090e+05    1.109090e+05    110909.000000   110909.000000   110909.000000   110909.000000   106966.000000   1.109090e+05    92546.000000    110909.000000   110909.000000   110909.000000   110877.000000   1.109090e+05    110909.000000   110909.000000   110909.000000   110909.000000   110903.000000   109104.000000   109017.000000   110909.000000   110909.000000   106966.000000   110909.000000   110909.000000   110909.000000   110909.000000   109225.000000   23011.000000    101505.000000   32915.000000    110909.000000   110909.000000   110909.000000   110909.000000   110909.000000   110909.000000   110909.000000   110909.000000   110909.000000   110909.000000   107934.0    110909.000000   110909.000000   110909.000000   110908.000000   109104.000000   110909.000000   110909.000000   1.109090e+05    1.109090e+05    110909.000000   1.109090e+05    14193.000000    14193   14193.000000    14193.000000    14193.000000    13921.000000    14193.000000    14193.000000    14193.000000    14193.000000    5062.000000 110909  131 131 131 131.0   131.000000  131 131 131 131.0   131.000000  131 26.000000   131.000000  131.000000  110909  1470    1470    1470    1470.000000 1470.000000 1470.000000
unique  NaN NaN NaN NaN NaN 2   74  NaN 7   34  22652   11  4   NaN 3   6   2   1   NaN NaN 13  12  867 50  NaN NaN 614 NaN NaN NaN NaN NaN NaN 1042    NaN 2   NaN NaN NaN NaN NaN NaN NaN NaN NaN 18  NaN 0.0 20  NaN NaN NaN 2   NaN NaN 3   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 510 NaN NaN NaN NaN NaN NaN NaN NaN NaN 1   1   8   2   NaN NaN 11  9   9   NaN NaN 4   NaN NaN NaN 2   12  3   13  NaN NaN NaN
top NaN NaN NaN NaN NaN 36 months   11.98%  NaN B   B5  Manager 10+ years   MORTGAGE    NaN Source Verified Apr-2018    Fully Paid  n   NaN NaN debt_consolidation  Debt consolidation  945xx   CA  NaN NaN Aug-2005    NaN NaN NaN NaN NaN NaN 0%  NaN w   NaN NaN NaN NaN NaN NaN NaN NaN NaN Jan-2019    NaN NaN Jun-2019    NaN NaN NaN Individual  NaN NaN Not Verified    NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN Aug-2005    NaN NaN NaN NaN NaN NaN NaN NaN NaN N   INTEREST ONLY-3 MONTHS DEFERRAL UNEMPLOYMENT    BROKEN  NaN NaN Mar-2019    Apr-2019    Mar-2019    NaN NaN Late (16-30 days)   NaN NaN NaN N   Jun-2019    ACTIVE  May-2019    NaN NaN NaN
freq    NaN NaN NaN NaN NaN 81370   3485    NaN 30833   6964    2030    36774   54812   NaN 44735   29655   87515   110909  NaN NaN 56217   56217   1223    15847   NaN NaN 987 NaN NaN NaN NaN NaN NaN 1843    NaN 92893   NaN NaN NaN NaN NaN NaN NaN NaN NaN 9952    NaN NaN 47569   NaN NaN NaN 96716   NaN NaN 6353    NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 164 NaN NaN NaN NaN NaN NaN NaN NaN NaN 110909  131 55  105 NaN NaN 27  27  34  NaN NaN 68  NaN NaN NaN 109439  374 1182    320 NaN NaN NaN
mean    NaN NaN 15133.124228    15133.124228    15129.913485    NaN NaN 451.703280  NaN NaN NaN NaN NaN 7.866525e+04    NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 18.658485   0.240945    NaN 0.543842    36.703838   82.156683   11.373595   0.162151    1.414609e+04    NaN 23.704154   NaN 0.0 0.0 13093.720734    13090.819511    11834.579108    1065.864157 1.193620    192.083862  34.107295   NaN 8988.970489 NaN NaN 0.018060    45.958725   1.0 NaN 123220.229856   19.046298   NaN 0.000045    3.007498e+02    1.487752e+05    1.048427    2.624494    0.845035    1.801720    18.464428   3.570383e+04    71.071878   1.399805    2.941727    5191.785689 53.011716   3.665310e+04    1.330749    1.696274    2.404187    5.083699    14573.002065    15451.859776    45.630734   0.008728    3.745034    121.109044  171.096953  13.539704   7.627740    1.476652    23.266752   40.444831   6.617723    37.548321   0.499932    3.305349    4.951492    4.712936    7.286199    8.664689    8.084673    13.359015   4.904345    11.346311   0.0 0.000045    0.066108    2.404593    94.636698   29.690390   0.145534    0.016464    1.886942e+05    5.006460e+04    25196.060734    4.486298e+04    32620.767914    NaN 0.753047    1.609244    11.366589   55.994512   2.893328    12.913619   0.052913    0.083492    36.830304   NaN NaN NaN NaN 3.0 194.040611  NaN NaN NaN 3.0 15.007634   NaN 677.778462  14977.221908    197.404962  NaN NaN NaN NaN 7235.872456 51.259034   18.638776
std NaN NaN 10063.626492    10063.626492    10062.605730    NaN NaN 291.529754  NaN NaN NaN NaN NaN 8.273838e+04    NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 20.105508   0.759381    NaN 0.791792    21.864945   23.731842   5.938104    0.445418    2.109029e+04    NaN 12.636174   NaN 0.0 0.0 10677.374875    10675.875613    10274.588973    1127.992027 8.430334    844.626003  150.986459  NaN 9417.206405 NaN NaN 0.149077    21.220192   0.0 NaN 61899.006621    8.171933    NaN 0.006714    2.447485e+04    1.670928e+05    1.212451    2.877455    1.041107    1.708049    23.830165   4.476172e+04    22.776782   1.595896    2.734340    5728.066547 22.057862   3.675638e+04    1.715969    2.911280    2.682558    3.482714    17992.870300    20176.943227    29.912941   0.107913    340.178661  54.487416   97.531613   17.183313   8.446866    1.798038    32.073651   22.185204   5.688223    22.098123   1.393569    2.312572    3.307021    3.167090    4.704991    7.612502    4.949893    8.197814    3.218891    5.928676    0.0 0.006714    0.438064    2.050780    8.906956    34.368549   0.359703    0.254046    1.863843e+05    5.154504e+04    25322.554746    4.691188e+04    28067.364794    NaN 1.108586    1.836520    6.574821    26.571334   3.085046    8.499611    0.510133    0.386138    24.069226   NaN NaN NaN NaN 0.0 144.144733  NaN NaN NaN 0.0 8.734103    NaN 445.752949  9097.533521 207.337176  NaN NaN NaN NaN 5009.981486 8.231359    6.806635
min NaN NaN 1000.000000 1000.000000 1000.000000 NaN NaN 30.120000   NaN NaN NaN NaN NaN 0.000000e+00    NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.000000    0.000000    NaN 0.000000    0.000000    3.000000    0.000000    0.000000    0.000000e+00    NaN 2.000000    NaN 0.0 0.0 0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    NaN 0.000000    NaN NaN 0.000000    0.000000    1.0 NaN 15400.000000    0.190000    NaN 0.000000    0.000000e+00    0.000000e+00    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000e+00    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000e+00    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    1.000000    2.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    2.000000    0.000000    0.000000    0.0 0.000000    0.000000    0.000000    12.500000   0.000000    0.000000    0.000000    0.000000e+00    0.000000e+00    0.000000    0.000000e+00    0.000000    NaN 0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    0.000000    NaN NaN NaN NaN 3.0 5.950000    NaN NaN NaN 3.0 0.000000    NaN 151.860000  424.110000  0.070000    NaN NaN NaN NaN 413.930000  29.920000   1.000000
25% NaN NaN 7200.000000 7200.000000 7200.000000 NaN NaN 232.750000  NaN NaN NaN NaN NaN 4.595300e+04    NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 10.400000   0.000000    NaN 0.000000    18.000000   67.000000   7.000000    0.000000    4.085000e+03    NaN 15.000000   NaN 0.0 0.0 5007.935312 5007.250000 3500.000000 292.490000  0.000000    0.000000    0.000000    NaN 823.590000  NaN NaN 0.000000    29.000000   1.0 NaN 83862.000000    13.000000   NaN 0.000000    0.000000e+00    2.739200e+04    0.000000    1.000000    0.000000    1.000000    6.000000    8.377000e+03    58.000000   0.000000    1.000000    1747.000000 38.000000   1.530000e+04    0.000000    0.000000    1.000000    3.000000    2958.000000 2983.000000 19.900000   0.000000    0.000000    83.000000   104.000000  4.000000    3.000000    0.000000    6.000000    23.000000   2.000000    20.000000   0.000000    2.000000    3.000000    3.000000    4.000000    4.000000    5.000000    8.000000    3.000000    7.000000    0.0 0.000000    0.000000    1.000000    92.300000   0.000000    0.000000    0.000000    5.299800e+04    1.849600e+04    8900.000000 1.466100e+04    14026.000000    NaN 0.000000    0.000000    7.000000    36.500000   1.000000    7.000000    0.000000    0.000000    15.000000   NaN NaN NaN NaN 3.0 90.360000   NaN NaN NaN 3.0 7.000000    NaN 338.100000  7428.245000 40.040000   NaN NaN NaN NaN 3466.597500 45.000000   18.000000
50% NaN NaN 12000.000000    12000.000000    12000.000000    NaN NaN 368.690000  NaN NaN NaN NaN NaN 6.500000e+04    NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 16.780000   0.000000    NaN 0.000000    34.000000   86.000000   10.000000   0.000000    9.061000e+03    NaN 22.000000   NaN 0.0 0.0 10297.070860    10294.240000    10000.000000    696.570000  0.000000    0.000000    0.000000    NaN 6119.670000 NaN NaN 0.000000    46.000000   1.0 NaN 110000.000000   18.560000   NaN 0.000000    0.000000e+00    8.415200e+04    1.000000    2.000000    1.000000    1.000000    11.000000   2.329500e+04    74.000000   1.000000    2.000000    3859.000000 54.000000   2.710000e+04    1.000000    0.000000    2.000000    4.000000    7869.000000 8439.000000 43.100000   0.000000    0.000000    128.000000  154.000000  8.000000    5.000000    1.000000    13.000000   39.000000   5.000000    35.000000   0.000000    3.000000    4.000000    4.000000    6.000000    7.000000    7.000000    12.000000   4.000000    10.000000   0.0 0.000000    0.000000    2.000000    100.000000  18.200000   0.000000    0.000000    1.248450e+05    3.653800e+04    17800.000000    3.328500e+04    25326.000000    NaN 0.000000    1.000000    10.000000   57.800000   2.000000    11.000000   0.000000    0.000000    35.000000   NaN NaN NaN NaN 3.0 146.390000  NaN NaN NaN 3.0 17.000000   NaN 367.950000  15652.360000    146.070000  NaN NaN NaN NaN 5891.670000 45.230000   20.000000
75% NaN NaN 20000.000000    20000.000000    20000.000000    NaN NaN 620.660000  NaN NaN NaN NaN NaN 9.500000e+04    NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 24.122500   0.000000    NaN 1.000000    53.000000   101.000000  14.000000   0.000000    1.725500e+04    NaN 31.000000   NaN 0.0 0.0 18766.242514    18755.060000    17500.000000    1443.380000 0.000000    0.000000    0.000000    NaN 13912.100000    NaN NaN 0.000000    63.000000   1.0 NaN 148000.000000   24.650000   NaN 0.000000    0.000000e+00    2.285040e+05    2.000000    3.000000    1.000000    3.000000    21.000000   4.672800e+04    87.000000   2.000000    4.000000    6943.000000 69.000000   4.640000e+04    2.000000    2.000000    3.000000    7.000000    20477.000000    19997.000000    70.500000   0.000000    0.000000    152.000000  220.000000  17.000000   10.000000   2.000000    27.000000   57.000000   10.000000   53.000000   0.000000    4.000000    6.000000    6.000000    9.000000    11.000000   10.000000   17.000000   6.000000    14.000000   0.0 0.000000    0.000000    3.000000    100.000000  50.000000   0.000000    0.000000    2.771000e+05    6.409300e+04    33000.000000    6.074100e+04    41986.000000    NaN 1.000000    3.000000    15.000000   77.300000   4.000000    17.000000   0.000000    0.000000    57.000000   NaN NaN NaN NaN 3.0 279.065000  NaN NaN NaN 3.0 23.000000   NaN 1193.032500 22114.265000    291.190000  NaN NaN NaN NaN 10090.202500    60.000000   24.000000
max NaN NaN 40000.000000    40000.000000    40000.000000    NaN NaN 1628.080000 NaN NaN NaN NaN NaN 9.300000e+06    NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 999.000000  19.000000   NaN 5.000000    226.000000  126.000000  86.000000   52.000000   1.113293e+06    NaN 129.000000  NaN 0.0 0.0 51653.389338    51653.390000    40000.000000    13842.210000    320.700000  33122.070000    5961.972600 NaN 41353.670000    NaN NaN 8.000000    226.000000  1.0 NaN 1000000.000000  39.980000   NaN 1.000000    6.214661e+06    4.151547e+06    13.000000   49.000000   6.000000    16.000000   383.000000  1.378570e+06    309.000000  22.000000   28.000000   389468.000000   175.000000  1.680300e+06    32.000000   40.000000   67.000000   33.000000   393082.000000   331957.000000   146.600000  9.000000    65000.000000    518.000000  806.000000  368.000000  260.000000  24.000000   551.000000  152.000000  24.000000   152.000000  36.000000   50.000000   72.000000   59.000000   66.000000   105.000000  72.000000   94.000000   65.000000   82.000000   0.0 1.000000    17.000000   23.000000   100.000000  100.000000  5.000000    52.000000   4.358152e+06    1.394335e+06    460900.000000   1.380346e+06    280272.000000   NaN 6.000000    17.000000   58.000000   212.600000  35.000000   75.000000   20.000000   11.000000   117.000000  NaN NaN NaN NaN 3.0 649.970000  NaN NaN NaN 3.0 29.000000   NaN 1369.860000 32300.260000    1072.990000 NaN NaN NaN NaN 28503.000000    80.000000   24.000000

當您看到前 4 行(並且有很多行)時,loan_amnt 計數似乎不太可能是 110909.000000。

附件:如何重新創建數據集

我使用了我在此處下載的 csv 文件(2018 年的銀行貸款。它們分為四個季度)。 使用 Python 3 可以通過執行以下操作獲得:

import pandas as pd 
# Control delimiters, rows, column names with read_csv (see later) 
data_Q1 = pd.read_csv("LoanStats_2018Q1.csv", skiprows=1, skipfooter=2, engine='python')
data_Q2 = pd.read_csv("LoanStats_2018Q2.csv", skiprows=1, skipfooter=2, engine='python')
data_Q3 = pd.read_csv("LoanStats_2018Q2.csv", skiprows=1, skipfooter=2, engine='python')
data_Q4 = pd.read_csv("LoanStats_2018Q2.csv", skiprows=1, skipfooter=2, engine='python')
frames = [data_Q1,data_Q2,data_Q3,data_Q4]

result = pd.concat(frames)
subset = result.loc[result["loan_status"].isin(['Charged Off','Fully Paid'])]

我認為遞歸特征消除(RFE)可能是您正在尋找的。 它是一種擬合模型並去除最弱特征的特征選擇方法。 特征按模型的 coef_ 或 feature_importances_ 屬性排序。 通過遞歸地消除每個循環的一些特征特征,RFE 試圖消除模型中可能存在的依賴關系和共線性。 我實現了交叉驗證的 RFE,它也嘗試選擇要使用的最佳功能數量。

下面的代碼與我使用過的代碼類似,盡管我還沒有在您的特定數據上嘗試過(Lending Club 試圖讓我創建一個帳戶,但我不會這樣做)。 顯然,您可以更改任何參數以滿足您的需要。

from sklearn.feature_selection import RFECV, RFE
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# Recursive Feature Elimination with Cross Validation
# Define parameters 
sample_size = 5000
folds = 5
elim_step = 1
min_features = 10
max_features = 50
SEED = 101

# Use a sample of the data for speed
status_map = {"Fully Paid": 1, "Charged Off": 0}
select_df = (result.sample(n=sample_size, replace=True, random_state=SEED)
                   .replace({"loan_status": status_map}))
select_y = select_df.pop("loan_status")

# Fit a random forest classifier using RFECV                  
estimator = RandomForestClassifier(n_estimators=50, 
                                   max_depth=5, 
                                   n_jobs=-1, 
                                   random_state=SEED)
selector = RFECV(estimator, step=elim_step, cv=folds,
                 min_features_to_select=min_features, 
                 scoring="roc_auc", n_jobs=-1, verbose=0)
selector = selector.fit(select_df, select_y)

# If there are still too many features, use RFE with set number of features
if selector.n_features_ <= max_features:
    n = selector.n_features_
else:
    selector = RFE(estimator, max_features, step=elim_step)
    selector = selector.fit(select_df, select_y)
    n = max_features



# Create a dataframe with the reduced set of columns
features = np.array(select_df.columns[selector.support_].tolist())
subset = result[features]
print(f"Using {n} features")
print(subset.head())

您還可以查看RFERFECV的文檔,了解有關遞歸特征消除的更多信息,並了解上面傳遞的參數。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM