cost 66 ms
通过将一个数据帧一分为二创建的两个数据帧之间的连接

如果我的标题令人困惑,我很抱歉,但我不确定如何描述我目前试图理解的情况。 但基本上我在使用 sklearn 模块中的train_test_split过程时偶然发现了这个问题。 所以,让我们继续,我向你展示一个已经让我困惑了几个小时的例子。 让我们创建一个包含 3 列的简单数据框: 'Le ...

2022-07-02 17:05:04 1 27
分类器非常置信的预测概率

一些背景 我正在研究基于 NLP 假新闻文本的分类。 我使用 sklearn 在以下数据集上训练了一个 SVC 分类器,其中包含假新闻和真实新闻: https ://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset ...

2022-07-02 15:49:07 0 31
IterativeImputer:fill_value 不是有效参数(SKlearn)

在SKlearn 的 IterativeImputer 的文档中,它说有一个参数“initial_strategy”,它与 SimpleImputer 中的“strategy”参数相同。 因此,我想使用“常量”作为 initial_strategy。 但是,当我尝试设置“fill_value”(要使 ...

2022-07-02 10:14:21 0 10
Sklearn 在调试模式下的 roc_auc_score 错误但在正常运行时运行良好?

我正在使用roc_auc_score来评估两个数组之间的 AUC,即真值和估计值。 当我在 PyCharms 上正常执行代码时,我的代码运行良好; 但是,当我使用调试模式时,会弹出以下奇怪的错误。 我尝试在roc_auc_score行之前暂停代码,并尝试仅使用带有 2 个小数组的调试控制台运行它。 ...

2022-07-02 03:56:27 1 9
使用 sklearn 的 toarray 方法导致使用所有 RAM

在 Google Colab 上的以下代码中,当它到达toarray方法时,它会使用所有 RAM。 我在寻找答案,有人建议使用HashingVectorizer 。 如何在以下代码中实现它? cv.fit_transform(data_list)的形状为(324430, 351550) # Lo ...

2022-07-02 02:56:23 0 21
忽略节点和组的 JSON 在凝聚聚类中超出颜色阈值

我使用创建了一个树状图 凝聚聚类 树状图(linkage_x,标签=all_encoded,color_threshold=2.2) 我得到了这个结果 我想将其转换为 JSON,然后使用 d3.tree() 进行可视化。 我正在寻找的格式是捕获深蓝色的层次结构,同时使每个彩色集群中的节 ...

2022-07-02 02:06:07 0 22
从 sklearn 管道获取特征名称和系数

我有一个在 Databricks 中使用 mlflow 的管道,我想在运行管道后获取特征名称和系数: 我的管道如下所示: 我知道我可以通过以下方式访问系数: 但我想拥有相关的功能名称。 ...

2022-07-01 19:48:56 0 18
无法从 sklearn 导入预测

我收到错误 ImportError:无法从“sklearn.linear_model”(/opt/anaconda3/lib/python3.8/site-packages/sklearn/linear_model/ init .py)导入名称“predict” 什么都试过了! 谁能帮忙! ...

2022-07-01 11:15:34 1 23
Sklearn 将不同顺序的数据视为不同的集合

所以我有两个数据框,df1 和 df2。 它们完全相同,只是行的顺序在两者之间混合。 例如: df1: df2: 我正在对这些数据使用 kmeans 构建聚类算法。 情况就是这样,每当我将这些不同顺序的数据提供给pipeline.fit()时,我最终都会得到不同的结果(不同的质心)。 ...

2022-07-01 09:16:39 0 27
有没有办法进行分层抽样,同时牢记分布和组 ID [Python]?

我有一组数据,我正在尝试为其创建训练和测试集。 但是,我需要将组保持在一起以避免数据泄漏。 进行随机拆分会导致训练集和测试集具有不同的分布。 是否有一个包可以让我拆分以在两组中保持相似的分布,同时确保两组中没有代表的组? 我已经尝试过 sklearn 的 train_test_split,但是当我对 ...

2022-07-01 03:01:11 0 11
截距是逻辑回归中真实值的一半

对于科学研究,我需要使用 python 和 sci-kit learn 来分析传统的逻辑回归。 在用“penalty='none'”拟合我的回归模型后,我可以获得正确的系数,但截距是真实值的一半。 我的代码主要如下: 使用 statsmodels 我得到截距(常数)“28.7140”,但使用 s ...

2022-06-30 23:23:17 1 49
泰坦尼克号 kaggle 的预测代码问题

对泰坦尼克号 kaggle 数据做一个问题,( https://www.kaggle.com/c/titanic/data )我必须在其中进行探索性数据分析、数据预处理、设置特征和目标、创建模型,然后最后制作对 test.csv 文件中的特征进行预测,并使用 Kaggle API 将它们上传到 Ka ...

2022-06-30 22:21:31 0 21
Scikit Learn/Numpy - 区分线性路径和异常(非线性)路径?

我有一个 numpy 数组中飞机轨道的纬度/经度/时间数据数组: 有什么方法可以区分大致笔直的路径(例如商用客机)和异常路径(非线性路径)? (我已经将数据居中以使平均纬度/经度 = 0,所以我们可以只看形状而不用担心它在图表上的位置): 商用飞机轨道示例(大致呈线性,但会略微转向和改变 ...

2022-06-30 18:35:13 0 15
折扣累积收益 dcg_score sklearn

我不明白为什么dcg_score将 y_score 作为参数。 当我计算出 DCG 长手(总相关性/log2(i+1))时,我可以得到相同的答案〜4.6,但我可以通过真实分数[3,2,0,0,1]来实现这一点,所以为什么它是否还需要函数中的理想分数[3,2,1,0,0] ? ...

2022-06-30 14:46:41 0 9

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM