标签[feature-scaling] - 堆栈内存溢出

在使用逻辑回归之前仅将特征缩放一个 label 有意义吗？ - Does it makes sense to scale features by only one label before using logistic regression?

我有一个简单的二元分类问题，我当前的分类器是逻辑回归，我正在使用 sklearn 的 RobustScaler 在拟合 lr 之前缩放我的特征。假设我的特征看起来像 2 个高斯分布：橙色直方图表示正 label，蓝色直方图表示负。我的问题是，仅将负 label 特征传递给定标器是否有意义？ ...

使用 scikit learn 缩放数据时出现奇怪的结果 - Strange results when scaling data using scikit learn

这个问题是从 Cross Validated 迁移而来的，因为它可以在 Stack Overflow 上回答。 2 小时前迁移。我有一个输入数据集，它有 4 个时间序列，80 天有 288 个值。所以实际的形状是 (80,4,288)。我想聚集不同的日子。我有 80 天，它们都有 4 个 ...

为什么基于树和集成的算法不需要特征缩放？ - Why Does Tree and Ensemble based Algorithm don't need feature scaling?

最近对数据分析很感兴趣。所以我研究了如何做机器学习项目并自己做。我了解到缩放对于处理特征很重要。因此，我在使用决策树或 LightGBM 等树 model 时缩放了每个特征。然后，缩放时的结果更差。我在inte.net上进行了搜索，但我所赚到的只是对数据的差异不敏感。我还买了 O'Re ...

在逻辑回归中需要缩放特征吗？ - Do features need to be scaled in Logistic Regression?

我有一个具有一个特征（信用余额）的训练集 - 数字在 0-20,000 之间变化。响应为 0（默认值 = 否）或 1（默认值 = 是）。这是使用逻辑函数生成的模拟训练集。可在此处获取以供参考。以下箱线图分别显示了 default=yes 和 default=no 类的余额分布 - 以下 ...

在 R 中使用 K 折交叉验证进行特征缩放时的数据泄漏 - Data leakage when feature scaling with K-fold cross validation in R

我正在执行 K-Folds 交叉验证来评估我的 SVM 模型性能。但是，由于数据的性质，我想使用特征缩放来缩放我的数据。这是数据的片段；这是其余的代码；我知道特征缩放然后在原始训练集上运行 K-folds CV 会导致数据泄漏，因为内部训练和验证集已经一起缩放，从而导致过度拟合。 ...

自变量是否需要单独进行特征缩放？ - Does feature scaling need to be done separately for independent variables?

我目前正在上 Udemy 课程，SVR class 的讲师说，必须分别对 X 和 y 应用特征缩放，因为它们的标准差和平均值不同。以下是代码和数据集的截图。 X 是级别，y 是薪水。特征缩放代码 SVR class 的数据集对于数据预处理 class，讲师使用了不同的数据集，数据集由 1 个 ...

时间序列预测的特征缩放 - Feature Scaling for Time Series Forecasting

我正在进行时间序列分析，准确地说是一个多元时间序列，在将输入输入到我的 LSTM model 之前，我已经对它们进行了缩放。我用来评估我的 model 的指标是验证集的损失和平均绝对误差。我的损失和 MAE 都低于 1 时，我能够取得相当不错的结果。但是，我当时想到，由于我的数据已经被缩放，它在 ...

如何衡量回归中的相互作用（定量*定性） - How to scale interactions in regression (quantitative*qualitative)

假设我在一个模型中有两个变量，以及它们的相互作用，如下所示：如果 x1 的规模很大（例如城市人口），我可能需要对变量进行缩放/居中。我知道如果 x1 和 x2 是连续的，我可以缩放（或居中）所有预测变量，并在交互项中使用scale(x1*x2) 。但是如果 x2 是分类变量呢？使用scal ...

反转特征缩放 - Invert feature scaling

在我的dataset ，我有一个二进制Target （0 或 1）变量和 8 个特征： nchar 、 rtc 、 Tmean 、 week_day 、 hour 、 ntags 、 nlinks和nex 。 week_day是一个因素，而其他因素是数字。我建立了一个决策树分类器，但我的问题涉及 ...

由于维度不同，无法对特征值进行逆转换 - Unable to inverse_transform the value of feature because of different dimensionality

我正在设计一个多元时间序列 model。为此，我将 5 个特征输入到 lstm model 并尝试预测 1 个变量的 output（即其值取决于自身和其他 4 个特征）。为此，我正在按如下方式进行特征缩放：- Output：- 在 model 的 output 处，我得到的预测值为：但是 ...

将数据帧中的每一行除以 Python 中的向量 - Dividing each row in a dataframe by a vector in Python

我在逻辑回归之前缩放我的数据。一切都很完美，直到我尝试将列除以 max_min 向量。它似乎在每个列中都有效，但在年龄列中无效，但我似乎无法找到原因。我之前已经拆分了用于测试和训练的数据，下面我正在尝试缩放 X_train 数据。从上面的代码中，我获得了一个表格，其中每个值都减去了其 ...

线性回归缩放功能 - Linear Regression Scaling Features

我想做一个线性回归。我的特点是这样的：在进行线性回归时，我确实必须缩放特征，尤其是当它们具有像 Marketcap 和其他特征这样不同的比例时，对吗？ EPS增长的负值是什么？在此示例中执行特征缩放的最佳方法是什么？ ...

在神经网络中应用特征缩放 - Applying Feature Scaling in a Neural Network

我有两个问题：我是否必须对神经网络（以及深度学习）中的所有特征应用特征缩放？如何缩放神经网络数据集中的分类特征（如果需要）？ ...

如何在列的子集上实现 PySpark StandardScaler？ - How to implement PySpark StandardScaler on subset of columns?

我想在数据框中的 10 列中的 6 列上使用 pyspark StandardScaler。这将是管道的一部分。 inputCol 参数似乎需要一个向量，我可以在对所有特征使用 VectorAssembler 后传入该向量，但这会缩放所有 10 个特征。我不想缩放其他 4 个特征，因为它们是 ...

Python中的数据规范化和重新缩放值 - Data normalization and rescaling value in Python

我有一个数据集，其中包含带有发布日期 (YYYY-MM-DD)、访问的 URL。我想计算一整年的访问基准（平均）。页面在不同的日期发布..... 例如，与 3 月发布的第二页（11,000）相比，8 月发布的第一页（访问次数为 10,000）的权重/贡献将更多。这是我的数据集：第一步 ...

是否有一个函数来规范化字符串并将它们转换为整数/浮点数？ - Is there a function to normalize strings and convert them to integers/floats?

我有多个特征列表，这些特征是我想要分析的字符串。也就是说，例如：我知道如何将诸如“0.5”之类的字符串转换为浮点数，但是有没有办法将此类列表“规范化”为整数或浮点值（在我的情况下，每个列表都是独立的）？我想得到这样的东西：有谁知道如何实现这一目标？不幸的是，我还找不到与此问题相关的 ...

增量分析中的特征缩放 - Feature scaling in an incremental analysis

我正在对我的数据进行增量分析。数据属于 4 个年龄组（第 1 天、第 2 天、第 3 天和第 4 天）。在我将数据提供给 model 之前，我使用 sklearn 中的标准缩放器实现对功能进行了标准化。当我想到它时，我想到了 3 种方法。请告知哪种方法最适合。 ...

如何根据神经网络中的图像分辨率计算特征数量（非线性假设）？ - How to calculate the number of features based on image resolution in neural networks(non-linear hypothesis)?

遇到 Andrew Ng 的神经网络非线性假设，我有一个 MCQ 来查找分辨率为 100x100 灰度强度的图像的特征数量。答案是 5000 万，5 x 10^7。然而，早先对于 50 x 50 像素的灰度图像，特征数是 50x50 (2500)，而对于 RGB 图像，它是 7500。为什么 ...

mysql 特征缩放计算 - mysql feature-scaling calculation

我需要将 mysql 查询公式化为 select 值以这种方式标准化： normalized = (value-min(values))/(max(values)-min(values))我的尝试如下所示：但显然是错误的，因为它只返回一个值。你能帮我找到正确的语法吗？ ...

在 MinMaxScaler 中为多个特征使用相同的最小和最大数据 - Use same Min and Max Data for Multiple Features in MinMaxScaler

我有一个包含 5 个特征的数据集。其中两个特征非常相似，但没有相同的最小值和最大值。 feature 3总是小于feature 2 ，重要的是它在缩放后保持这种状态。但是由于特征 2 和特征 3 没有完全相同的min和max ，因此在缩放之后，它们最终都会默认将 0 和 1 作为最小值和最大值 ...