标签[scikit-learn] - 堆栈内存溢出

基于支持向量的数据重采样器 - A data resampler based on support vectors

赏金将在 6 天后到期。此问题的答案有资格获得+150声望赏金。 arilwan想提请更多人注意这个问题：带有示例工作代码的详细答案，在问题中引用了 WME。我正在努力实现一个基于support vectors数据重采样器。这个想法是适合SVM分类器，获得类的support vector ...

在 sklearn 中导入 vs 从导入 - import vs from import in sklearn

为什么 ' from sklearn.impute import SimpleImputer as si ' 有效但是 ' 不工作我想知道，为什么这行不通。我是 python 的新用户。 ...

使用 bootstrap 方法的置信区间 AUC - Confidence interval AUC with the bootstrap method

今天我尝试做一个引导程序来获得各种不同 ML 算法 AUC 的区间置信度。我使用了我的个人医疗数据集，其中包含 61 个特征，格式如下：年龄女性 65 1个 45 0 例如我使用了这种类型的算法：最后，当我使用 boostrap 方法获取置信区间时（我从其他主题中获取代码： How to ...

sklearn：将属性 out_activation_ 的值设置为“logistic” - sklearn: Set the valute to the attribute out_activation_ to 'logistic'

我需要在 sklearn 的 MLPRegressor 中设置属性 activation_out = 'logistic'。假定此属性可以采用相关激活函数的名称（'relu'、'logistic'、'tanh' 等）。问题是我找不到您可以控制此属性并将其设置为首选功能的方式。拜托，如果有人以 ...

如何将预测值合并到原始 pandas 测试数据帧，其中 X_test 在拆分前使用 CountVectorizer 进行了转换 - How to merge predicted values to original pandas test data frame where X_test has been converted using CountVectorizer before splitting

我想将我的测试数据的预测结果合并到我的 X_test 中。我能够将它与 y_test 合并，但由于我的 X_test 是一个语料库，我不确定如何识别要合并的索引。我的代码如下这给了我 y_test 和 y_pred 但我不确定如何将 X_test 添加为原始数据框（X_test 的 ID）。 ...

GridSearchCV 没有提高我的测试准确性 - GridSearchCV does not improve my test accuracy

我正在制作多个分类器模型，所有这些模型的测试精度都是 0.508。我发现多个模型具有相同的准确度很奇怪。我使用的模型是 Logistic Regressor、DesicionTreeClassifier、MLPClassifier、RandomForestClassifier、BaggingCl ...

为什么 model 的 y 轴截距与图表不符？ - Why does the y-intercept from the model not match the graph?

此代码生成回归线图，但从 LR model 获取的 y 截距与图上的 y 截距不匹配。我错过了什么？该脚本将取自 model 的 y 截距打印为 152，但图表显示它小于 100。脚本输出： ...

检查 scikit-learn 中的估算器是否具有“适合”方法的最pythonic方法是什么？ - What is the most pythonic way to check if an estimator in scikit-learn has a "fit" method?

知道其估计量的通用机器学习 model 中检查fit方法是否存在的最佳 pythonic 方法是什么？这是代码的一部分： ...

Python：从标量预测向量 - Python: Predicting vector from a scalar

我正在研究一个问题，我必须从标量x预测向量y 。我目前正在使用线性回归来创建基线 model。但它似乎无法处理多维 output。我正在使用以下代码：在这种情况下，x_train 是形状为(1,m)的列向量，y_train 是形状为(m,)的向量的向量。可以在此处查看生成的错误消息。我认为 ...

训练和测试分数是否会根据值的大小而变化？ - Does train and test score change depending on the magnitude of values?

没有具体的代码。现在，我有一个逻辑回归器，目标列是is_promoted （布尔值），带有 0 和 1。当我找到训练和测试精度以及 MSE 时，它们在 0 和 1 之间。我有一个不同的 model，它是一个线性回归器。目标列是“resale_price”，其值为 10,000 及以上。当 ...

如何在 XGBClassifier 中分配特征权重？ - How to assign feature weights in XGBClassifier?

我正在尝试为一个特征分配比其他特征更高的权重。这是我的代码。我浏览了此处的文档和此处Akshay Sehgal 对类似问题的 stackoverflow 响应。但是当我使用上面的代码时，出现以下错误？谁能帮我解决我做错的地方？谢谢。 ...

如何将点击率用作逻辑回归的因变量（Python） - how to use CTR as dependent variable for a logistic regression (Python)

我想使用逻辑回归来预测广告的点击率 (CTR)。作为自变量，我在广告素材上使用诸如放置和不同二元变量之类的变量。作为因变量，我想使用点击率，但我不知道该怎么做，因为我需要一个二元变量作为逻辑回归的因变量。下面显示了因变量的一个小变量示例。我的问题是如何使用这些变量来构建逻辑回归？最好在P ...

定义 Ball 树应该返回哪些邻居 - Define which neighbours a Ball tree should return

我有一个 dataframe 有几个位置。我想找到最近邻居的每个位置。为此，我使用了球树。然而，output 似乎在比较所有位置，包括原始位置。例如，我有位置 A、B、C..... output 会将 A 列为 A 的邻居。另外，我有一个时间列，我想在我的分析中使用。在拟合 Ball 树 ...

如何在不使用 python 库的情况下进行 K 折交叉验证？ - How to do K-fold cross validation without using python libraries?

我正在尝试进行交叉验证，但是，我只被允许使用下面的那些库（按照教授的要求）：因此，我无法使用 KFold 来拆分数据。我应该怎么go一下呢？有什么建议么？我正在考虑对拆分进行硬编码，但可能有更好的解决方案。 ...

如何找到pickled model的sklearn版本？ - How to find the sklearn version of pickled model?

我有一个 pickled sklearn model，我需要运行它。然而，这个 model 是在未知版本的 sklearn 中训练的。当我在调试器中查找 model 时，我发现里面有一堆奇怪的回溯，而不是你期望的键，例如：我怎样才能让这个 model 运行？这些错误消息是否提示您什么？编 ...

如何使用 KMeans 聚类来提高逻辑回归 model 的准确性？ - How to use KMeans clustering to improve the accuracy of a logistic regression model?

我是python的机器学习初学者，正在研究二分类问题。我实施了一个逻辑回归 model，平均准确率在 75% 左右。我尝试了多种方法来提高 model 的准确性，例如分类变量的单热编码、连续变量的缩放，我还进行了网格搜索以找到最佳参数。他们都未能提高准确性。因此，我研究了无监督学习方法以改 ...

为什么 max_features 超参数在这个 class sklearn.ensemble.RandomForestClassifier 中？ - why max_features hyperparameter is in this class sklearn.ensemble.RandomForestClassifier?

这个 class 是这样工作的：考虑每个节点的“max_features”，以选择拆分然后 select 随机从“max_features”中选出一个特征。（参考：书籍：使用 Scikit-Learn、Keras 和 Tensorflow 进行机器学习实践，第 199 页的页脚）然后找到该 ...

测试数据集上的 label 编码表示未识别的值 - label encoding on test dataset says unidentified values

train = pd.DataFrame({'speed':['fast','medium']}) test = pd.DataFrame({'speed':['fast','medium','slow']}) le = LabelEncoder() le.fit(train) train = l ...

Diff() function 与 groupby 一起使用 pandas - Diff() function use with groupby for pandas

每次我尝试计算数据集中仪表读数的差异时，我都会遇到错误。数据集结构是这样的。我正在尝试生成一个名为 consumption 的新列，该列计算一年中每个月之后每个房屋（由houseid-meterid标识）消耗数量的差异。我用来实现这个的代码是：执行此代码后，消耗列将填充NaN值。我怎样才 ...

使用数据扩充时如何避免数据泄露？ - How to avoid data leakage when using data augmentation?

我正在开发一个使用数据扩充的分类问题。为此，我已经通过添加噪声和其他特征从副本中提取特征。但是，我想避免数据泄漏，例如，当副本在训练集中而原始数据在测试集中时，可能会发生这种情况。我开始测试一些解决方案，然后我得到了下面的代码。但是，我不知道目前的解决方案是否可以防止这个问题。基本上，我 ...