簡體   English   中英

刪除所有觀察值具有相同值的列會影響我的模型嗎?

[英]Will removing a column having same values for all observations affect my model?

我的數據集中的一列對於所有觀察/行具有相同的值。 我應該在構建機器學習模型時刪除該列嗎?

刪除此列會影響我的模型/性能指標嗎?

如果我用不同的常量值替換所有值,它會改變模型/性能指標嗎?

如果數據集中的一列具有相同的值,您可以刪除此列,因為它對您的模型區分兩個不同的標簽沒有任何幫助,而另一方面,它甚至可能通過創建對您的模型產生負面影響數據中的偏差。

例如:假設您有兩種不同的水果,例如一種是青蘋果,一種是番石榴。 然后,這兩種水果將具有相同的顏色,即“綠色”,因此基本上意味着您無法根據顏色區分這兩種水果,但是如果它們是兩種不同顏色的水果,您可以使用這個特性來區分它們。

希望它有助於澄清您應該如何處理具有相同觀察集的此類列。

謝謝。

機器學習模型只不過是一個數學方程,即

y = f(x)

其中

y = 目標/相關變量

f(x) = 自變量(在我們的例子中是一個包含訓練/測試數據的 DataFrame)

所以從技術上講,ML 模型量化和估計 X 的值是多少,可能的輸出 y 是什么。

假設單個整列是常數。 因此,y 和 f(x=constant) 之間的關系是沒有意義的,因為對於 y 的任何值,x 將保持不變。 除了 y 也是常數的唯一選項之外,沒有任何數學關系是可能的。 我們可以安全地假設情況並非如此,否則為什么要構建一個模型來獲得恆定值。

因此,我們可以安全地刪除任何常量列,它不會向 DataFrame 添加任何數據變化以節省計算時間,因為該列在任何意義上都不會影響 y。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM