簡體   English   中英

帶有偏差數據的預測模型(分類)

[英]Predictive model (classification) with biased data

我正在嘗試使用例如邏輯回歸或決策樹(或任何其他類似方法)在 R 中構建預測模型。 除了分類變量(例如,是否存在疾病),數據集還包括性別、年齡、BMI、吸煙狀況等變量。

變量性別對我的模型非常重要,我希望它成為預測變量的一部分。 然而,在探索性分析中,我意識到超過 2/3 的觀察來自女性受訪者,這並不是女性人口的真實比例。

我該怎么做才能考慮到這一點? 我的意思是,我不希望模型給女性帶來更大的風險(例如),僅僅因為有比從男性受訪者那里獲得的觀察更多的觀察。

非常感謝。

這里有一個很好的討論: https : //stats.stackexchange.com/questions/6067/does-an-unbalanced-sample-matter-when-doing-logistic-regression 這更像是一個統計問題而不是一個 R 問題。 簡短的回答是它不應該是一個問題。 請注意底部的最終答案,它說您可以自己平衡樣本,然后記住您的模型是假設類同樣常見的后驗概率估計。 在這種情況下,您實際上可以這樣做,這將是一個准確的假設,因為您知道人口中男性和女性的真實比例。 假設您有足夠的數據,您可以隨機刪除一半的女性觀察結果。 你也可以只是修補一下。 我經常發現了解某件事是否有效的最佳方法是同時嘗試兩種方法,看看它是否有所作為。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM