繁体 English 中英

使用scikit-learn对大型数据集进行一键编码

[英]One-hot encoding of large dataset with scikit-learn

原文 2014-07-26 02:41:50 6 2 python/ scikit-learn

我有一个很大的数据集，打算对它进行逻辑回归。 它有很多分类变量，每个都有数千个功能，我打算在其中使用一种热编码。 我将需要小批量处理数据。 我的问题是如何确保一个热编码在第一次运行时就能看到每个分类变量的所有功能？

2 个解决方案

无法找出分类特征可以取哪些值，这可能意味着您必须完全遍历数据才能获得分类变量的唯一值列表。

之后，它是将您的分类变量以整数值和设定事项n_values=在kwarg OneHotEncoder到对应于不同值中的每个变量可以取的数目的阵列。

您可以读取数据，然后首先获得分类变量的所有唯一值的列表。 然后，可以在唯一值列表中放入一个热编码器对象（例如sklearn.preprocessing.CategoricalEncoder）。

这种方法可以帮助

火车测试框架
或者当您分块读取数据时

我创建了一个python模块，可以自行完成所有这些操作。 您可以在此GitHub存储库中找到它-dummyPy

这方面的简短教程- 如何使用Python对大型数据集的分类变量进行热编码？

Scikit学习中的一键编码仅适用于部分DataFrame

[英]One-Hot Encoding in Scikit-learn for only part of the DataFrame

如何在Pandas DataFrame的多个列中进行单热编码，以便以后与Scikit-Learn一起使用

[英]How to do one-hot encoding in several columns of a Pandas DataFrame for later use with Scikit-Learn

使用pandas或scikit-learn对多维数组进行一键编码

[英]one-hot encoding on multi-dimension arrays, using pandas or scikit-learn

Scikit-Learn - 对 Pandas 数据帧的某些列进行一次性编码

[英]Scikit-Learn - one-hot encoding certain columns of a pandas dataframe

Scikit-learn 扩展的自定义 one-hot 编码矩阵 - 不是从数据集构造的

[英]Scikit-learn Expanded custom one-hot encoded matrix - not constructed from dataset

在scikit-learn中进行一次热编码的可能方法？

[英]Possible ways to do one hot encoding in scikit-learn?

Keras scikit-learn 包装器在使用 one-hot 编码标签的交叉验证中的评分指标

[英]Scoring metrics from Keras scikit-learn wrapper in cross validation with one-hot encoded labels

使用SciKit-learn和大型数据集进行文本分类

[英]text classification with SciKit-learn and a large dataset

从 scikit-learn 中的 one-hot-encoding 回溯分类特征？

[英]Backtracking categorical features from one-hot-encoding in scikit-learn?

scikit的一键编码如何分配假人？

[英]How does scikit's one-hot encoding assign dummies?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Scikit学习中的一键编码仅适用于部分DataFrame 如何在Pandas DataFrame的多个列中进行单热编码，以便以后与Scikit-Learn一起使用使用pandas或scikit-learn对多维数组进行一键编码 Scikit-Learn - 对 Pandas 数据帧的某些列进行一次性编码 Scikit-learn 扩展的自定义 one-hot 编码矩阵 - 不是从数据集构造的在scikit-learn中进行一次热编码的可能方法？ Keras scikit-learn 包装器在使用 one-hot 编码标签的交叉验证中的评分指标使用SciKit-learn和大型数据集进行文本分类从 scikit-learn 中的 one-hot-encoding 回溯分类特征？ scikit的一键编码如何分配假人？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM