繁体   English   中英

如何确定在Pandas DataFrame中将哪些列设置为索引?

[英]How does one determine which columns to set as an index in a Pandas DataFrame?

假设我有一个金融证券的数据框架,它通常有多个标识符:

在此输入图像描述

我应该只选择一列作为索引吗? 我应该将所有潜在标识符设置为索引吗? 我应该将所有文本数据设置为索引,并将所有数字数据保留为列吗? 什么是最佳做法?

这更多是关于数据库设计而不是熊猫。

决策应基于数据框(关系数据库中的表)及其列的业务含义。 例如,如果“内部安全ID”用于识别其业务中的此类数据,则应将其设置为索引。

但是,如果您不确定,请坚持使用默认的整数索引。

我倾向于坚持使用默认索引,除非您需要将一个列作为索引。 如果您这样做,我强烈建议您使用具有唯一值的列。 如果存在重复,这将引起您很多头痛。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM