Pandas 在连接后重新计算索引

Question

我有一个问题，我通过沿行轴连接（垂直堆叠）来生成熊猫数据框。

每个组成数据帧都有一个自动生成的索引（升序数字）。

连接后，我的索引被搞砸了：它计数到 n（其中 n 是相应数据帧的形状 [0]），并在下一个数据帧处从零重新开始。

我正在尝试“根据当前订单重新计算索引”或“重新索引”（或者我认为）。 事实证明，这并不是DataFrame.reindex似乎正在做的事情。

这是我尝试做的：

train_df = pd.concat(train_class_df_list)
train_df = train_df.reindex(index=[i for i in range(train_df.shape[0])])

它因“无法从重复轴重新索引”而失败。 我不想改变我的数据的顺序......只需要删除旧索引并设置一个新索引，并保留行的顺序。

Answer 1

如果您的索引是自动生成的并且您不想保留它，您可以使用ignore_index选项。 `

train_df = pd.concat(train_class_df_list, ignore_index=True)

这将为您自动生成一个新索引，我猜这正是您所追求的。

Answer 2

垂直串联后，如果您得到[0, n)后跟[0, m)的索引，您需要做的就是调用reset_index ：

train_df.reset_index(drop=True)

（您可以使用inplace=True执行此操作）。

import pandas as pd

>>> pd.concat([
    pd.DataFrame({'a': [1, 2]}), 
    pd.DataFrame({'a': [1, 2]})]).reset_index(drop=True)
    a
0   1
1   2
2   1
3   2

Answer 3

这应该有效：

train_df.reset_index(inplace=True, drop=True)

将drop设置为True以避免在数据框中添加额外的列。

Pandas 在连接后重新计算索引

问题描述

3 个解决方案

解决方案1
76 2016-02-20 19:51:11

解决方案2
60 已采纳 2016-02-20 19:46:52

解决方案3
8 2016-02-20 19:46:19

Pandas 在连接后重新计算索引

问题描述

3 个解决方案

解决方案1 76 2016-02-20 19:51:11

解决方案2 60 已采纳 2016-02-20 19:46:52

解决方案3 8 2016-02-20 19:46:19

解决方案1
76 2016-02-20 19:51:11

解决方案2
60 已采纳 2016-02-20 19:46:52

解决方案3
8 2016-02-20 19:46:19