如果我的标题令人困惑,我很抱歉,但我不确定如何描述我目前试图理解的情况。 但基本上我在使用 sklearn 模块中的train_test_split过程时偶然发现了这个问题。 所以,让我们继续,我向你展示一个已经让我困惑了几个小时的例子。 让我们创建一个包含 3 列的简单数据框: 'Le ...
如果我的标题令人困惑,我很抱歉,但我不确定如何描述我目前试图理解的情况。 但基本上我在使用 sklearn 模块中的train_test_split过程时偶然发现了这个问题。 所以,让我们继续,我向你展示一个已经让我困惑了几个小时的例子。 让我们创建一个包含 3 列的简单数据框: 'Le ...
一些背景 我正在研究基于 NLP 假新闻文本的分类。 我使用 sklearn 在以下数据集上训练了一个 SVC 分类器,其中包含假新闻和真实新闻: https ://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset ...
输出是我的 20newsgroups_train 数据的一部分吗? 还是来自默认库? 因为像“zz_g9q3”这样的词没有意义。 当前使用 20newsgroups_train 数据集和 20newsgroups_test 数据集 输入: 输出: ...
在SKlearn 的 IterativeImputer 的文档中,它说有一个参数“initial_strategy”,它与 SimpleImputer 中的“strategy”参数相同。 因此,我想使用“常量”作为 initial_strategy。 但是,当我尝试设置“fill_value”(要使 ...
我有个问题。 我收到以下错误ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). . 是否可以选择获取发生此错误的确切列名? 我看着 当我训练 DecisionTreeClas ...
我正在使用roc_auc_score来评估两个数组之间的 AUC,即真值和估计值。 当我在 PyCharms 上正常执行代码时,我的代码运行良好; 但是,当我使用调试模式时,会弹出以下奇怪的错误。 我尝试在roc_auc_score行之前暂停代码,并尝试仅使用带有 2 个小数组的调试控制台运行它。 ...
在 Google Colab 上的以下代码中,当它到达toarray方法时,它会使用所有 RAM。 我在寻找答案,有人建议使用HashingVectorizer 。 如何在以下代码中实现它? cv.fit_transform(data_list)的形状为(324430, 351550) # Lo ...
我使用创建了一个树状图 凝聚聚类 树状图(linkage_x,标签=all_encoded,color_threshold=2.2) 我得到了这个结果 我想将其转换为 JSON,然后使用 d3.tree() 进行可视化。 我正在寻找的格式是捕获深蓝色的层次结构,同时使每个彩色集群中的节 ...
我有一个在 Databricks 中使用 mlflow 的管道,我想在运行管道后获取特征名称和系数: 我的管道如下所示: 我知道我可以通过以下方式访问系数: 但我想拥有相关的功能名称。 ...
我收到错误 ImportError:无法从“sklearn.linear_model”(/opt/anaconda3/lib/python3.8/site-packages/sklearn/linear_model/ init .py)导入名称“predict” 什么都试过了! 谁能帮忙! ...
我想使用来自 sklearn.neighbors.KNeighborsClassifier 的 k 最近邻分类器对从 CNN 提取的特征进行分类。 但是当我在测试数据上使用 predict() 函数时,它给出的类与 kneighbors() 可以找到的多数票不同。 我正在使用以下 Resnet50 ...
所以我有两个数据框,df1 和 df2。 它们完全相同,只是行的顺序在两者之间混合。 例如: df1: df2: 我正在对这些数据使用 kmeans 构建聚类算法。 情况就是这样,每当我将这些不同顺序的数据提供给pipeline.fit()时,我最终都会得到不同的结果(不同的质心)。 ...
我正在关注使用 sklearn 对文本进行聚类的本教程。 作者使用以下行使用 Tf-Idf 从文本中提取特征: 其中text_process是预处理原始输入的函数,而X_train应该是原始输入。 但是,当我使用相同的代码时,会收到以下警告: 用户警告:参数 'ngram_range' ...
我有一组数据,我正在尝试为其创建训练和测试集。 但是,我需要将组保持在一起以避免数据泄漏。 进行随机拆分会导致训练集和测试集具有不同的分布。 是否有一个包可以让我拆分以在两组中保持相似的分布,同时确保两组中没有代表的组? 我已经尝试过 sklearn 的 train_test_split,但是当我对 ...
对于科学研究,我需要使用 python 和 sci-kit learn 来分析传统的逻辑回归。 在用“penalty='none'”拟合我的回归模型后,我可以获得正确的系数,但截距是真实值的一半。 我的代码主要如下: 使用 statsmodels 我得到截距(常数)“28.7140”,但使用 s ...
对泰坦尼克号 kaggle 数据做一个问题,( https://www.kaggle.com/c/titanic/data )我必须在其中进行探索性数据分析、数据预处理、设置特征和目标、创建模型,然后最后制作对 test.csv 文件中的特征进行预测,并使用 Kaggle API 将它们上传到 Ka ...
我有一个 numpy 数组中飞机轨道的纬度/经度/时间数据数组: 有什么方法可以区分大致笔直的路径(例如商用客机)和异常路径(非线性路径)? (我已经将数据居中以使平均纬度/经度 = 0,所以我们可以只看形状而不用担心它在图表上的位置): 商用飞机轨道示例(大致呈线性,但会略微转向和改变 ...
我不明白为什么dcg_score将 y_score 作为参数。 当我计算出 DCG 长手(总相关性/log2(i+1))时,我可以得到相同的答案〜4.6,但我可以通过真实分数[3,2,0,0,1]来实现这一点,所以为什么它是否还需要函数中的理想分数[3,2,1,0,0] ? ...
使用 pycaret 创建模型到目前为止没有问题(训练了一堆不同的模型)但是当使用 catboost 时,我无法保存到 pmml。 相同的代码适用于具有相同数据的 xgboost 和 lightgbm。 ...