简体   繁体   English

如何知道特征工程完成的列的顺序和标签?

How to know the order and labels of columns where the feature engineering is done?

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文简体   中文繁体   英文版本 版本,有任何建议请联系yoyou2525@163.com。

I have been given a assignment by my teacher for doing practise on Basic Feature engineering taught in class.我的老师给了我一个任务,让我在 class 教授的基本特征工程上进行练习。 So I did practise it on a basic dataset which looks as follows:-所以我确实在一个基本数据集上练习了它,如下所示:- 在此处输入图像描述

pipe_age=Pipeline([("infused",SimpleImputer(strategy='median')),
                  ("scaled",StandardScaler())])
pipe_No_of_Children=Pipeline([("scaled_child",StandardScaler())])
pipe_balance=Pipeline([("infused_bala",SimpleImputer(strategy='mean')),
                  ("scaled_bala",StandardScaler())])
pipe_city=Pipeline([("one_hot_encod",OneHotEncoder(sparse=False)),
                  ("scaled_city",StandardScaler())])
pipe_ratings=Pipeline([("ordinal_encod",OrdinalEncoder(categories=[["Excellent",'Good', 'Bad','Can Improve']])),
                  ("scaled_ratings",StandardScaler())])
pipe_fico_min=Pipeline([("scaled_fico_min",StandardScaler())])
pipe_fico_max=Pipeline([("scaled_fico_max",StandardScaler())])


pre_processing=ColumnTransformer(transformers=[("pipe_age",pipe_age,["Age"]),
                                              ("pipe_city",pipe_city,["CITY"]),
                                              ("pipe_rating",pipe_ratings,["Ratings"]),
                                              ("pipe_balance",pipe_balance,["Balances"]),
                                              ("pipe_children",pipe_No_of_Children,["No_of_Children"]),
                                              ("pipe_fico_min",pipe_fico_min,["fico_min"]),
                                              ("pipe_fico_max",pipe_fico_max,["fico_max"])])

pre_processing.fit(df)

pd.DataFrame(pre_processing.transform(df))

在此处输入图像描述

Now after doing above I could not understand which columns refer to columns present in actual data frame.现在完成上述操作后,我无法理解哪些列是指实际数据框中存在的列。 How to give labels to columns during the above transformation so that after that's done it's easy to distinguish the columns?如何在上述转换过程中为列赋予标签,以便在完成之后很容易区分列?

Like here 0,1,2 represents which columns in main data set像这里 0,1,2 代表主数据集中的哪些列

问题暂未有回复.您可以查看右边的相关问题.
2 任何人都知道这个功能是如何完成的(放大文字)? [关闭] - Anyone know how this feature done (magnifying text)? [closed]

关闭。 这个问题不符合Stack Overflow 准则。 它目前不接受答案。 想改进这个问题? 更新问题,使其成为 Stack Overflow的主题。 6 个月前关闭。 改进这个问题我在许多儿童应用程序中看到了这个功能,当读者阅读它时,单词会被放大。 我想知道它是如何在 swift 中实 ...

3 特征工程 - 如何转换数据集 - Feature Engineering - How to transform a dataset

我有一个数据集,其中包含一组坐标为 X、Y 的点。 我想将数据集转换为另一个包含以下内容的数据集: 半径:从点到圆心。 带坐标的圆 (0,0) 角度:计算点相对于向量 (1,0) 的角度我试图应用极坐标变换,但在编码时我很难得到结果。 请参阅下面的数据集及其包含的内容: 数据集 访问点数组时,我们可 ...

5 如何表示和压缩特征工程的稀疏特征? - How to represent and compress sparse feature for feature engineering?

有一个数字表示为A (uint_16类型),A的值代表一个特定的含义,这个数字有400+个可能的值(每个值都是唯一的)。 样本必须使用特征f来表示A ,但A可以对样本使用多个值,例如, A = {0x10, 0x2FC0, ...} 如何表示这个特征? 一种天真的方法是热编码,但它是高维的(40 ...

7 如何选择最重要的特征? 特征工程 - How to select most important features? Feature Engineering

我使用了这个链接的高尔距离函数: https : //sourceforge.net/projects/gower-distance-4python/files/ 。 我的数据( df )是这样的,每一行都是一笔交易,每一列都是特征。 由于它包含大量分类数据,然后我使用高尔距离转换数据以测量“相似性 ...

8 如何进行实时数据特征工程? - How to do feature engineering of real time data?

我通过以下步骤制作了一个很好的线性回归模型: 资料整合 数据标准化/缩放(数据预处理和特征工程) 模型构建(使用线性回归与SGD进行交叉验证) 测试中 我的问题是,如果我们在生产环境中使用此模型,那么该模型是通过特征归一化和缩放构建的,那么如何进行实时数 ...

10 如何了解混淆矩阵的实际标签顺序? - How to get to know the order of actual labels for Confusion Matrix?

我很困惑,我如何知道混淆矩阵中的实际标签? 我知道传递标签,但我的主要问题是我们如何知道我必须传递标签的序列? 这将返回混淆_矩阵() 函数的结果: 然后我声明了标签并传递了标签来绘制混淆矩阵: 然后调用函数并传递标签: 绘制的混淆矩阵的输出是: 现在,我的确切问题是,我已经通 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM