cost 101 ms
在使用逻辑回归之前仅将特征缩放一个 label 有意义吗? - Does it makes sense to scale features by only one label before using logistic regression?

我有一个简单的二元分类问题,我当前的分类器是逻辑回归,我正在使用 sklearn 的 RobustScaler 在拟合 lr 之前缩放我的特征。 假设我的特征看起来像 2 个高斯分布: 橙色直方图表示正 label,蓝色直方图表示负。 我的问题是,仅将负 label 特征传递给定标器是否有意义? ...

使用 scikit learn 缩放数据时出现奇怪的结果 - Strange results when scaling data using scikit learn

这个问题是从 Cross Validated 迁移而来的,因为它可以在 Stack Overflow 上回答。 2 小时前迁移。 我有一个输入数据集,它有 4 个时间序列,80 天有 288 个值。 所以实际的形状是 (80,4,288)。 我想聚集不同的日子。 我有 80 天,它们都有 4 个 ...

为什么基于树和集成的算法不需要特征缩放? - Why Does Tree and Ensemble based Algorithm don't need feature scaling?

最近对数据分析很感兴趣。 所以我研究了如何做机器学习项目并自己做。 我了解到缩放对于处理特征很重要。 因此,我在使用决策树或 LightGBM 等树 model 时缩放了每个特征。 然后,缩放时的结果更差。 我在inte.net上进行了搜索,但我所赚到的只是对数据的差异不敏感。 我还买了 O'Re ...

在逻辑回归中需要缩放特征吗? - Do features need to be scaled in Logistic Regression?

我有一个具有一个特征(信用余额)的训练集 - 数字在 0-20,000 之间变化。 响应为 0(默认值 = 否)或 1(默认值 = 是)。 这是使用逻辑函数生成的模拟训练集。 可在此处获取以供参考。 以下箱线图分别显示了 default=yes 和 default=no 类的余额分布 - 以下 ...

在 R 中使用 K 折交叉验证进行特征缩放时的数据泄漏 - Data leakage when feature scaling with K-fold cross validation in R

我正在执行 K-Folds 交叉验证来评估我的 SVM 模型性能。 但是,由于数据的性质,我想使用特征缩放来缩放我的数据。 这是数据的片段; 这是其余的代码; 我知道特征缩放然后在原始训练集上运行 K-folds CV 会导致数据泄漏,因为内部训练和验证集已经一起缩放,从而导致过度拟合。 ...

自变量是否需要单独进行特征缩放? - Does feature scaling need to be done separately for independent variables?

我目前正在上 Udemy 课程,SVR class 的讲师说,必须分别对 X 和 y 应用特征缩放,因为它们的标准差和平均值不同。 以下是代码和数据集的截图。 X 是级别,y 是薪水。 特征缩放代码 SVR class 的数据集对于数据预处理 class,讲师使用了不同的数据集,数据集由 1 个 ...

时间序列预测的特征缩放 - Feature Scaling for Time Series Forecasting

我正在进行时间序列分析,准确地说是一个多元时间序列,在将输入输入到我的 LSTM model 之前,我已经对它们进行了缩放。 我用来评估我的 model 的指标是验证集的损失和平均绝对误差。 我的损失和 MAE 都低于 1 时,我能够取得相当不错的结果。但是,我当时想到,由于我的数据已经被缩放,它在 ...

如何衡量回归中的相互作用(定量*定性) - How to scale interactions in regression (quantitative*qualitative)

假设我在一个模型中有两个变量,以及它们的相互作用,如下所示: 如果 x1 的规模很大(例如城市人口),我可能需要对变量进行缩放/居中。 我知道如果 x1 和 x2 是连续的,我可以缩放(或居中)所有预测变量,并在交互项中使用scale(x1*x2) 。 但是如果 x2 是分类变量呢? 使用scal ...

反转特征缩放 - Invert feature scaling

在我的dataset ,我有一个二进制Target (0 或 1)变量和 8 个特征: nchar 、 rtc 、 Tmean 、 week_day 、 hour 、 ntags 、 nlinks和nex 。 week_day是一个因素,而其他因素是数字。 我建立了一个决策树分类器,但我的问题涉及 ...

由于维度不同,无法对特征值进行逆转换 - Unable to inverse_transform the value of feature because of different dimensionality

我正在设计一个多元时间序列 model。 为此,我将 5 个特征输入到 lstm model 并尝试预测 1 个变量的 output(即其值取决于自身和其他 4 个特征)。 为此,我正在按如下方式进行特征缩放:- Output:- 在 model 的 output 处,我得到的预测值为: 但是 ...

将数据帧中的每一行除以 Python 中的向量 - Dividing each row in a dataframe by a vector in Python

我在逻辑回归之前缩放我的数据。 一切都很完美,直到我尝试将列除以 max_min 向量。 它似乎在每个列中都有效,但在年龄列中无效,但我似乎无法找到原因。 我之前已经拆分了用于测试和训练的数据,下面我正在尝试缩放 X_train 数据。 从上面的代码中,我获得了一个表格,其中每个值都减去了其 ...

如何在列的子集上实现 PySpark StandardScaler? - How to implement PySpark StandardScaler on subset of columns?

我想在数据框中的 10 列中的 6 列上使用 pyspark StandardScaler。 这将是管道的一部分。 inputCol 参数似乎需要一个向量,我可以在对所有特征使用 VectorAssembler 后传入该向量,但这会缩放所有 10 个特征。 我不想缩放其他 4 个特征,因为它们是 ...

Python中的数据规范化和重新缩放值 - Data normalization and rescaling value in Python

我有一个数据集,其中包含带有发布日期 (YYYY-MM-DD)、访问的 URL。 我想计算一整年的访问基准(平均)。 页面在不同的日期发布..... 例如,与 3 月发布的第二页(11,000)相比,8 月发布的第一页(访问次数为 10,000)的权重/贡献将更多。 这是我的数据集: 第一步 ...

是否有一个函数来规范化字符串并将它们转换为整数/浮点数? - Is there a function to normalize strings and convert them to integers/floats?

我有多个特征列表,这些特征是我想要分析的字符串。 也就是说,例如: 我知道如何将诸如“0.5”之类的字符串转换为浮点数,但是有没有办法将此类列表“规范化”为整数或浮点值(在我的情况下,每个列表都是独立的)? 我想得到这样的东西: 有谁知道如何实现这一目标? 不幸的是,我还找不到与此问题相关的 ...

增量分析中的特征缩放 - Feature scaling in an incremental analysis

我正在对我的数据进行增量分析。 数据属于 4 个年龄组(第 1 天、第 2 天、第 3 天和第 4 天)。 在我将数据提供给 model 之前,我使用 sklearn 中的标准缩放器实现对功能进行了标准化。 当我想到它时,我想到了 3 种方法。 请告知哪种方法最适合。 ...

如何根据神经网络中的图像分辨率计算特征数量(非线性假设)? - How to calculate the number of features based on image resolution in neural networks(non-linear hypothesis)?

遇到 Andrew Ng 的神经网络非线性假设,我有一个 MCQ 来查找分辨率为 100x100 灰度强度的图像的特征数量。 答案是 5000 万,5 x 10^7。 然而,早先对于 50 x 50 像素的灰度图像,特征数是 50x50 (2500),而对于 RGB 图像,它是 7500。 为什么 ...

在 MinMaxScaler 中为多个特征使用相同的最小和最大数据 - Use same Min and Max Data for Multiple Features in MinMaxScaler

我有一个包含 5 个特征的数据集。 其中两个特征非常相似,但没有相同的最小值和最大值。 feature 3总是小于feature 2 ,重要的是它在缩放后保持这种状态。 但是由于特征 2 和特征 3 没有完全相同的min和max ,因此在缩放之后,它们最终都会默认将 0 和 1 作为最小值和最大值 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM