繁体   English   中英

如何使用python为数据框列中的多个字符串分配数值?

[英]How to assign numeric values to multile strings in a dataframe column using python?

我正在尝试使用包含 company_name (分类特征)和 int 中的一些值(我想预测的值)的数据框来训练我的模型。

由于“company_name”列中有多个不同的值,如何将它们转换为数字类型? (当它们很少时,将它们转换为 int/float 更容易,就像在鸢尾花数据集中,我们可以轻松地分配数值,因为只有 3 个物种)

我想知道将数值分配给具有许多不同值的分类特色列的最佳方法。

您可以在此处使用类别代码 -

import pandas as pd
import numpy as np

# creating initial dataframe
bridge_types = ('Arch','Beam','Truss','Cantilever','Tied Arch','Suspension','Cable')

bridge_df = pd.DataFrame(bridge_types, columns=['Bridge_Types'])

# converting type of columns to 'category'
bridge_df['Bridge_Types'] = bridge_df['Bridge_Types'].astype('category')

# Assigning numerical values and storing in another column
bridge_df['Bridge_Types_Cat'] = bridge_df['Bridge_Types'].cat.codes

>>> bridge_df
  Bridge_Types  Bridge_Types_Cat
0         Arch                 0
1         Beam                 1
2        Truss                 6
3   Cantilever                 3
4    Tied Arch                 5
5   Suspension                 4
6        Cable                 2

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM