標簽[feature-scaling] - 堆棧內存溢出

[英]Does it makes sense to scale features by only one label before using logistic regression?

我有一個簡單的二元分類問題，我當前的分類器是邏輯回歸，我正在使用 sklearn 的 RobustScaler 在擬合 lr 之前縮放我的特征。假設我的特征看起來像 2 個高斯分布：橙色直方圖表示正 label，藍色直方圖表示負。我的問題是，僅將負 label 特征傳遞給定標器是否有意義？ ...

使用 scikit learn 縮放數據時出現奇怪的結果

[英]Strange results when scaling data using scikit learn

這個問題是從 Cross Validated 遷移而來的，因為它可以在 Stack Overflow 上回答。 2 小時前遷移。我有一個輸入數據集，它有 4 個時間序列，80 天有 288 個值。所以實際的形狀是 (80,4,288)。我想聚集不同的日子。我有 80 天，它們都有 4 個 ...

為什么基於樹和集成的算法不需要特征縮放？

[英]Why Does Tree and Ensemble based Algorithm don't need feature scaling?

最近對數據分析很感興趣。所以我研究了如何做機器學習項目並自己做。我了解到縮放對於處理特征很重要。因此，我在使用決策樹或 LightGBM 等樹 model 時縮放了每個特征。然后，縮放時的結果更差。我在inte.net上進行了搜索，但我所賺到的只是對數據的差異不敏感。我還買了 O'Re ...

在邏輯回歸中需要縮放特征嗎？

[英]Do features need to be scaled in Logistic Regression?

我有一個具有一個特征（信用余額）的訓練集 - 數字在 0-20,000 之間變化。響應為 0（默認值 = 否）或 1（默認值 = 是）。這是使用邏輯函數生成的模擬訓練集。可在此處獲取以供參考。以下箱線圖分別顯示了 default=yes 和 default=no 類的余額分布 - 以下 ...

在 R 中使用 K 折交叉驗證進行特征縮放時的數據泄漏

[英]Data leakage when feature scaling with K-fold cross validation in R

我正在執行 K-Folds 交叉驗證來評估我的 SVM 模型性能。但是，由於數據的性質，我想使用特征縮放來縮放我的數據。這是數據的片段；這是其余的代碼；我知道特征縮放然后在原始訓練集上運行 K-folds CV 會導致數據泄漏，因為內部訓練和驗證集已經一起縮放，從而導致過度擬合。 ...

自變量是否需要單獨進行特征縮放？

[英]Does feature scaling need to be done separately for independent variables?

我目前正在上 Udemy 課程，SVR class 的講師說，必須分別對 X 和 y 應用特征縮放，因為它們的標准差和平均值不同。以下是代碼和數據集的截圖。 X 是級別，y 是薪水。特征縮放代碼 SVR class 的數據集對於數據預處理 class，講師使用了不同的數據集，數據集由 1 個 ...

時間序列預測的特征縮放

[英]Feature Scaling for Time Series Forecasting

我正在進行時間序列分析，准確地說是一個多元時間序列，在將輸入輸入到我的 LSTM model 之前，我已經對它們進行了縮放。我用來評估我的 model 的指標是驗證集的損失和平均絕對誤差。我的損失和 MAE 都低於 1 時，我能夠取得相當不錯的結果。但是，我當時想到，由於我的數據已經被縮放，它在 ...

如何衡量回歸中的相互作用（定量*定性）

[英]How to scale interactions in regression (quantitative*qualitative)

假設我在一個模型中有兩個變量，以及它們的相互作用，如下所示：如果 x1 的規模很大（例如城市人口），我可能需要對變量進行縮放/居中。我知道如果 x1 和 x2 是連續的，我可以縮放（或居中）所有預測變量，並在交互項中使用scale(x1*x2) 。但是如果 x2 是分類變量呢？使用scal ...

反轉特征縮放

[英]Invert feature scaling

在我的dataset ，我有一個二進制Target （0 或 1）變量和 8 個特征： nchar 、 rtc 、 Tmean 、 week_day 、 hour 、 ntags 、 nlinks和nex 。 week_day是一個因素，而其他因素是數字。我建立了一個決策樹分類器，但我的問題涉及 ...

由於維度不同，無法對特征值進行逆轉換

[英]Unable to inverse_transform the value of feature because of different dimensionality

我正在設計一個多元時間序列 model。為此，我將 5 個特征輸入到 lstm model 並嘗試預測 1 個變量的 output（即其值取決於自身和其他 4 個特征）。為此，我正在按如下方式進行特征縮放：- Output：- 在 model 的 output 處，我得到的預測值為：但是 ...

將數據幀中的每一行除以 Python 中的向量

[英]Dividing each row in a dataframe by a vector in Python

我在邏輯回歸之前縮放我的數據。一切都很完美，直到我嘗試將列除以 max_min 向量。它似乎在每個列中都有效，但在年齡列中無效，但我似乎無法找到原因。我之前已經拆分了用於測試和訓練的數據，下面我正在嘗試縮放 X_train 數據。從上面的代碼中，我獲得了一個表格，其中每個值都減去了其 ...

線性回歸縮放功能

[英]Linear Regression Scaling Features

我想做一個線性回歸。我的特點是這樣的：在進行線性回歸時，我確實必須縮放特征，尤其是當它們具有像 Marketcap 和其他特征這樣不同的比例時，對嗎？ EPS增長的負值是什么？在此示例中執行特征縮放的最佳方法是什么？ ...

在神經網絡中應用特征縮放

[英]Applying Feature Scaling in a Neural Network

我有兩個問題：我是否必須對神經網絡（以及深度學習）中的所有特征應用特征縮放？如何縮放神經網絡數據集中的分類特征（如果需要）？ ...

如何在列的子集上實現 PySpark StandardScaler？

[英]How to implement PySpark StandardScaler on subset of columns?

我想在數據框中的 10 列中的 6 列上使用 pyspark StandardScaler。這將是管道的一部分。 inputCol 參數似乎需要一個向量，我可以在對所有特征使用 VectorAssembler 后傳入該向量，但這會縮放所有 10 個特征。我不想縮放其他 4 個特征，因為它們是 ...

Python中的數據規范化和重新縮放值

[英]Data normalization and rescaling value in Python

我有一個數據集，其中包含帶有發布日期 (YYYY-MM-DD)、訪問的 URL。我想計算一整年的訪問基准（平均）。頁面在不同的日期發布..... 例如，與 3 月發布的第二頁（11,000）相比，8 月發布的第一頁（訪問次數為 10,000）的權重/貢獻將更多。這是我的數據集：第一步 ...

是否有一個函數來規范化字符串並將它們轉換為整數/浮點數？

[英]Is there a function to normalize strings and convert them to integers/floats?

我有多個特征列表，這些特征是我想要分析的字符串。也就是說，例如：我知道如何將諸如“0.5”之類的字符串轉換為浮點數，但是有沒有辦法將此類列表“規范化”為整數或浮點值（在我的情況下，每個列表都是獨立的）？我想得到這樣的東西：有誰知道如何實現這一目標？不幸的是，我還找不到與此問題相關的 ...

增量分析中的特征縮放

[英]Feature scaling in an incremental analysis

我正在對我的數據進行增量分析。數據屬於 4 個年齡組（第 1 天、第 2 天、第 3 天和第 4 天）。在我將數據提供給 model 之前，我使用 sklearn 中的標准縮放器實現對功能進行了標准化。當我想到它時，我想到了 3 種方法。請告知哪種方法最適合。 ...

如何根據神經網絡中的圖像分辨率計算特征數量（非線性假設）？

[英]How to calculate the number of features based on image resolution in neural networks(non-linear hypothesis)?

遇到 Andrew Ng 的神經網絡非線性假設，我有一個 MCQ 來查找分辨率為 100x100 灰度強度的圖像的特征數量。答案是 5000 萬，5 x 10^7。然而，早先對於 50 x 50 像素的灰度圖像，特征數是 50x50 (2500)，而對於 RGB 圖像，它是 7500。為什么 ...

mysql 特征縮放計算

[英]mysql feature-scaling calculation

我需要將 mysql 查詢公式化為 select 值以這種方式標准化： normalized = (value-min(values))/(max(values)-min(values))我的嘗試如下所示：但顯然是錯誤的，因為它只返回一個值。你能幫我找到正確的語法嗎？ ...

在 MinMaxScaler 中為多個特征使用相同的最小和最大數據

[英]Use same Min and Max Data for Multiple Features in MinMaxScaler

我有一個包含 5 個特征的數據集。其中兩個特征非常相似，但沒有相同的最小值和最大值。 feature 3總是小於feature 2 ，重要的是它在縮放后保持這種狀態。但是由於特征 2 和特征 3 沒有完全相同的min和max ，因此在縮放之后，它們最終都會默認將 0 和 1 作為最小值和最大值 ...