簡體 English 中英

帶有偏差數據的預測模型（分類）

[英]Predictive model (classification) with biased data

原文 2015-11-05 23:23:59 6 1 r/ classification/ decision-tree/ logistic-regression

我正在嘗試使用例如邏輯回歸或決策樹（或任何其他類似方法）在 R 中構建預測模型。 除了分類變量（例如，是否存在疾病），數據集還包括性別、年齡、BMI、吸煙狀況等變量。

變量性別對我的模型非常重要，我希望它成為預測變量的一部分。 然而，在探索性分析中，我意識到超過 2/3 的觀察來自女性受訪者，這並不是女性人口的真實比例。

我該怎么做才能考慮到這一點？ 我的意思是，我不希望模型給女性帶來更大的風險（例如），僅僅因為有比從男性受訪者那里獲得的觀察更多的觀察。

非常感謝。

1 個解決方案

這里有一個很好的討論： https : //stats.stackexchange.com/questions/6067/does-an-unbalanced-sample-matter-when-doing-logistic-regression 。 這更像是一個統計問題而不是一個 R 問題。 簡短的回答是它不應該是一個問題。 請注意底部的最終答案，它說您可以自己平衡樣本，然后記住您的模型是假設類同樣常見的后驗概率估計。 在這種情況下，您實際上可以這樣做，這將是一個准確的假設，因為您知道人口中男性和女性的真實比例。 假設您有足夠的數據，您可以隨機刪除一半的女性觀察結果。 你也可以只是修補一下。 我經常發現了解某件事是否有效的最佳方法是同時嘗試兩種方法，看看它是否有所作為。

如何在 R 中創建顯示預測模型、數據和殘差的圖表

[英]How to create a graph showing the predictive model, data and residuals in R

自動預測模型擬合，基於附件數據框選擇變量

[英]Automated predictive model fitting with variables chosen based on accessory data frame

LDA分類：測試數據集中的零預測能力是真實的還是誤差假象

[英]LDA classification: Is zero predictive power in test data set real, or artefact of error

預測模型決策樹

[英]Predictive model decision tree

模擬預測模型

[英]Simulating a Predictive Model

R 中的白天分類以進行預測分析

[英]Classification of Day time in R for predictive analysis

在R中存儲/保存預測模型

[英]Store/Save Predictive Model in R

使用 R 構建預測 model

[英]build predictive model using R

在R中創建堆疊的預測模型

[英]Create a stacked predictive model in R

預測模型上的可變長度不同誤差

[英]Variable Lengths Differ Error on Predictive model

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在 R 中創建顯示預測模型、數據和殘差的圖表自動預測模型擬合，基於附件數據框選擇變量 LDA分類：測試數據集中的零預測能力是真實的還是誤差假象預測模型決策樹模擬預測模型 R 中的白天分類以進行預測分析在R中存儲/保存預測模型使用 R 構建預測 model 在R中創建堆疊的預測模型預測模型上的可變長度不同誤差

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM