cost 67 ms
基于支持向量的数据重采样器 - A data resampler based on support vectors

赏金将在 6 天后到期。 此问题的答案有资格获得+150声望赏金。 arilwan想提请更多人注意这个问题: 带有示例工作代码的详细答案,在问题中引用了 WME。 我正在努力实现一个基于support vectors数据重采样器。 这个想法是适合SVM分类器,获得类的support vector ...

使用 bootstrap 方法的置信区间 AUC - Confidence interval AUC with the bootstrap method

今天我尝试做一个引导程序来获得各种不同 ML 算法 AUC 的区间置信度。 我使用了我的个人医疗数据集,其中包含 61 个特征,格式如下: 年龄女性 65 1个 45 0 例如我使用了这种类型的算法: 最后,当我使用 boostrap 方法获取置信区间时(我从其他主题中获取代码: How to ...

sklearn:将属性 out_activation_ 的值设置为“logistic” - sklearn: Set the valute to the attribute out_activation_ to 'logistic'

我需要在 sklearn 的 MLPRegressor 中设置属性 activation_out = 'logistic'。 假定此属性可以采用相关激活函数的名称('relu'、'logistic'、'tanh' 等)。 问题是我找不到您可以控制此属性并将其设置为首选功能的方式。 拜托,如果有人以 ...

如何将预测值合并到原始 pandas 测试数据帧,其中 X_test 在拆分前使用 CountVectorizer 进行了转换 - How to merge predicted values to original pandas test data frame where X_test has been converted using CountVectorizer before splitting

我想将我的测试数据的预测结果合并到我的 X_test 中。 我能够将它与 y_test 合并,但由于我的 X_test 是一个语料库,我不确定如何识别要合并的索引。 我的代码如下 这给了我 y_test 和 y_pred 但我不确定如何将 X_test 添加为原始数据框(X_test 的 ID)。 ...

Python:从标量预测向量 - Python: Predicting vector from a scalar

我正在研究一个问题,我必须从标量x预测向量y 。 我目前正在使用线性回归来创建基线 model。但它似乎无法处理多维 output。 我正在使用以下代码: 在这种情况下,x_train 是形状为(1,m)的列向量,y_train 是形状为(m,)的向量的向量。 可以在此处查看生成的错误消息。 我认为 ...

训练和测试分数是否会根据值的大小而变化? - Does train and test score change depending on the magnitude of values?

没有具体的代码。 现在,我有一个逻辑回归器,目标列是is_promoted (布尔值),带有 0 和 1。 当我找到训练和测试精度以及 MSE 时,它们在 0 和 1 之间。 我有一个不同的 model,它是一个线性回归器。 目标列是“resale_price”,其值为 10,000 及以上。 当 ...

如何将点击率用作逻辑回归的因变量(Python) - how to use CTR as dependent variable for a logistic regression (Python)

我想使用逻辑回归来预测广告的点击率 (CTR)。 作为自变量,我在广告素材上使用诸如放置和不同二元变量之类的变量。 作为因变量,我想使用点击率,但我不知道该怎么做,因为我需要一个二元变量作为逻辑回归的因变量。 下面显示了因变量的一个小变量示例。 我的问题是如何使用这些变量来构建逻辑回归? 最好在P ...

定义 Ball 树应该返回哪些邻居 - Define which neighbours a Ball tree should return

我有一个 dataframe 有几个位置。 我想找到最近邻居的每个位置。 为此,我使用了球树。 然而,output 似乎在比较所有位置,包括原始位置。 例如,我有位置 A、B、C..... output 会将 A 列为 A 的邻居。 另外,我有一个时间列,我想在我的分析中使用。 在拟合 Ball 树 ...

如何在不使用 python 库的情况下进行 K 折交叉验证? - How to do K-fold cross validation without using python libraries?

我正在尝试进行交叉验证,但是,我只被允许使用下面的那些库(按照教授的要求): 因此,我无法使用 KFold 来拆分数据。 我应该怎么go一下呢? 有什么建议么? 我正在考虑对拆分进行硬编码,但可能有更好的解决方案。 ...

如何找到pickled model的sklearn版本? - How to find the sklearn version of pickled model?

我有一个 pickled sklearn model,我需要运行它。 然而,这个 model 是在未知版本的 sklearn 中训练的。 当我在调试器中查找 model 时,我发现里面有一堆奇怪的回溯,而不是你期望的键,例如: 我怎样才能让这个 model 运行? 这些错误消息是否提示您什么? 编 ...

如何使用 KMeans 聚类来提高逻辑回归 model 的准确性? - How to use KMeans clustering to improve the accuracy of a logistic regression model?

我是python的机器学习初学者,正在研究二分类问题。 我实施了一个逻辑回归 model,平均准确率在 75% 左右。 我尝试了多种方法来提高 model 的准确性,例如分类变量的单热编码、连续变量的缩放,我还进行了网格搜索以找到最佳参数。 他们都未能提高准确性。 因此,我研究了无监督学习方法以改 ...

为什么 max_features 超参数在这个 class sklearn.ensemble.RandomForestClassifier 中? - why max_features hyperparameter is in this class sklearn.ensemble.RandomForestClassifier?

这个 class 是这样工作的: 考虑每个节点的“max_features”,以选择拆分然后 select 随机从“max_features”中选出一个特征。 (参考:书籍:使用 Scikit-Learn、Keras 和 Tensorflow 进行机器学习实践,第 199 页的页脚) 然后找到该 ...

Diff() function 与 groupby 一起使用 pandas - Diff() function use with groupby for pandas

每次我尝试计算数据集中仪表读数的差异时,我都会遇到错误。 数据集结构是这样的。 我正在尝试生成一个名为 consumption 的新列,该列计算一年中每个月之后每个房屋(由houseid-meterid标识)消耗数量的差异。 我用来实现这个的代码是: 执行此代码后,消耗列将填充NaN值。 我怎样才 ...

使用数据扩充时如何避免数据泄露? - How to avoid data leakage when using data augmentation?

我正在开发一个使用数据扩充的分类问题。 为此,我已经通过添加噪声和其他特征从副本中提取特征。 但是,我想避免数据泄漏,例如,当副本在训练集中而原始数据在测试集中时,可能会发生这种情况。 我开始测试一些解决方案,然后我得到了下面的代码。 但是,我不知道目前的解决方案是否可以防止这个问题。 基本上,我 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM