cost 102 ms
在使用邏輯回歸之前僅將特征縮放一個 label 有意義嗎?

[英]Does it makes sense to scale features by only one label before using logistic regression?

我有一個簡單的二元分類問題,我當前的分類器是邏輯回歸,我正在使用 sklearn 的 RobustScaler 在擬合 lr 之前縮放我的特征。 假設我的特征看起來像 2 個高斯分布: 橙色直方圖表示正 label,藍色直方圖表示負。 我的問題是,僅將負 label 特征傳遞給定標器是否有意義? ...

使用 scikit learn 縮放數據時出現奇怪的結果

[英]Strange results when scaling data using scikit learn

這個問題是從 Cross Validated 遷移而來的,因為它可以在 Stack Overflow 上回答。 2 小時前遷移。 我有一個輸入數據集,它有 4 個時間序列,80 天有 288 個值。 所以實際的形狀是 (80,4,288)。 我想聚集不同的日子。 我有 80 天,它們都有 4 個 ...

為什么基於樹和集成的算法不需要特征縮放?

[英]Why Does Tree and Ensemble based Algorithm don't need feature scaling?

最近對數據分析很感興趣。 所以我研究了如何做機器學習項目並自己做。 我了解到縮放對於處理特征很重要。 因此,我在使用決策樹或 LightGBM 等樹 model 時縮放了每個特征。 然后,縮放時的結果更差。 我在inte.net上進行了搜索,但我所賺到的只是對數據的差異不敏感。 我還買了 O'Re ...

在邏輯回歸中需要縮放特征嗎?

[英]Do features need to be scaled in Logistic Regression?

我有一個具有一個特征(信用余額)的訓練集 - 數字在 0-20,000 之間變化。 響應為 0(默認值 = 否)或 1(默認值 = 是)。 這是使用邏輯函數生成的模擬訓練集。 可在此處獲取以供參考。 以下箱線圖分別顯示了 default=yes 和 default=no 類的余額分布 - 以下 ...

在 R 中使用 K 折交叉驗證進行特征縮放時的數據泄漏

[英]Data leakage when feature scaling with K-fold cross validation in R

我正在執行 K-Folds 交叉驗證來評估我的 SVM 模型性能。 但是,由於數據的性質,我想使用特征縮放來縮放我的數據。 這是數據的片段; 這是其余的代碼; 我知道特征縮放然后在原始訓練集上運行 K-folds CV 會導致數據泄漏,因為內部訓練和驗證集已經一起縮放,從而導致過度擬合。 ...

自變量是否需要單獨進行特征縮放?

[英]Does feature scaling need to be done separately for independent variables?

我目前正在上 Udemy 課程,SVR class 的講師說,必須分別對 X 和 y 應用特征縮放,因為它們的標准差和平均值不同。 以下是代碼和數據集的截圖。 X 是級別,y 是薪水。 特征縮放代碼 SVR class 的數據集對於數據預處理 class,講師使用了不同的數據集,數據集由 1 個 ...

時間序列預測的特征縮放

[英]Feature Scaling for Time Series Forecasting

我正在進行時間序列分析,准確地說是一個多元時間序列,在將輸入輸入到我的 LSTM model 之前,我已經對它們進行了縮放。 我用來評估我的 model 的指標是驗證集的損失和平均絕對誤差。 我的損失和 MAE 都低於 1 時,我能夠取得相當不錯的結果。但是,我當時想到,由於我的數據已經被縮放,它在 ...

如何衡量回歸中的相互作用(定量*定性)

[英]How to scale interactions in regression (quantitative*qualitative)

假設我在一個模型中有兩個變量,以及它們的相互作用,如下所示: 如果 x1 的規模很大(例如城市人口),我可能需要對變量進行縮放/居中。 我知道如果 x1 和 x2 是連續的,我可以縮放(或居中)所有預測變量,並在交互項中使用scale(x1*x2) 。 但是如果 x2 是分類變量呢? 使用scal ...

反轉特征縮放

[英]Invert feature scaling

在我的dataset ,我有一個二進制Target (0 或 1)變量和 8 個特征: nchar 、 rtc 、 Tmean 、 week_day 、 hour 、 ntags 、 nlinks和nex 。 week_day是一個因素,而其他因素是數字。 我建立了一個決策樹分類器,但我的問題涉及 ...

由於維度不同,無法對特征值進行逆轉換

[英]Unable to inverse_transform the value of feature because of different dimensionality

我正在設計一個多元時間序列 model。 為此,我將 5 個特征輸入到 lstm model 並嘗試預測 1 個變量的 output(即其值取決於自身和其他 4 個特征)。 為此,我正在按如下方式進行特征縮放:- Output:- 在 model 的 output 處,我得到的預測值為: 但是 ...

將數據幀中的每一行除以 Python 中的向量

[英]Dividing each row in a dataframe by a vector in Python

我在邏輯回歸之前縮放我的數據。 一切都很完美,直到我嘗試將列除以 max_min 向量。 它似乎在每個列中都有效,但在年齡列中無效,但我似乎無法找到原因。 我之前已經拆分了用於測試和訓練的數據,下面我正在嘗試縮放 X_train 數據。 從上面的代碼中,我獲得了一個表格,其中每個值都減去了其 ...

線性回歸縮放功能

[英]Linear Regression Scaling Features

我想做一個線性回歸。 我的特點是這樣的: 在進行線性回歸時,我確實必須縮放特征,尤其是當它們具有像 Marketcap 和其他特征這樣不同的比例時,對嗎? EPS增長的負值是什么? 在此示例中執行特征縮放的最佳方法是什么? ...

如何在列的子集上實現 PySpark StandardScaler?

[英]How to implement PySpark StandardScaler on subset of columns?

我想在數據框中的 10 列中的 6 列上使用 pyspark StandardScaler。 這將是管道的一部分。 inputCol 參數似乎需要一個向量,我可以在對所有特征使用 VectorAssembler 后傳入該向量,但這會縮放所有 10 個特征。 我不想縮放其他 4 個特征,因為它們是 ...

Python中的數據規范化和重新縮放值

[英]Data normalization and rescaling value in Python

我有一個數據集,其中包含帶有發布日期 (YYYY-MM-DD)、訪問的 URL。 我想計算一整年的訪問基准(平均)。 頁面在不同的日期發布..... 例如,與 3 月發布的第二頁(11,000)相比,8 月發布的第一頁(訪問次數為 10,000)的權重/貢獻將更多。 這是我的數據集: 第一步 ...

是否有一個函數來規范化字符串並將它們轉換為整數/浮點數?

[英]Is there a function to normalize strings and convert them to integers/floats?

我有多個特征列表,這些特征是我想要分析的字符串。 也就是說,例如: 我知道如何將諸如“0.5”之類的字符串轉換為浮點數,但是有沒有辦法將此類列表“規范化”為整數或浮點值(在我的情況下,每個列表都是獨立的)? 我想得到這樣的東西: 有誰知道如何實現這一目標? 不幸的是,我還找不到與此問題相關的 ...

增量分析中的特征縮放

[英]Feature scaling in an incremental analysis

我正在對我的數據進行增量分析。 數據屬於 4 個年齡組(第 1 天、第 2 天、第 3 天和第 4 天)。 在我將數據提供給 model 之前,我使用 sklearn 中的標准縮放器實現對功能進行了標准化。 當我想到它時,我想到了 3 種方法。 請告知哪種方法最適合。 ...

如何根據神經網絡中的圖像分辨率計算特征數量(非線性假設)?

[英]How to calculate the number of features based on image resolution in neural networks(non-linear hypothesis)?

遇到 Andrew Ng 的神經網絡非線性假設,我有一個 MCQ 來查找分辨率為 100x100 灰度強度的圖像的特征數量。 答案是 5000 萬,5 x 10^7。 然而,早先對於 50 x 50 像素的灰度圖像,特征數是 50x50 (2500),而對於 RGB 圖像,它是 7500。 為什么 ...

mysql 特征縮放計算

[英]mysql feature-scaling calculation

我需要將 mysql 查詢公式化為 select 值以這種方式標准化: normalized = (value-min(values))/(max(values)-min(values))我的嘗試如下所示: 但顯然是錯誤的,因為它只返回一個值。 你能幫我找到正確的語法嗎? ...

在 MinMaxScaler 中為多個特征使用相同的最小和最大數據

[英]Use same Min and Max Data for Multiple Features in MinMaxScaler

我有一個包含 5 個特征的數據集。 其中兩個特征非常相似,但沒有相同的最小值和最大值。 feature 3總是小於feature 2 ,重要的是它在縮放后保持這種狀態。 但是由於特征 2 和特征 3 沒有完全相同的min和max ,因此在縮放之后,它們最終都會默認將 0 和 1 作為最小值和最大值 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM