大熊猫堆叠数据框重塑数据

Question

我正在尝试使用concat，append或merge堆叠两个3列数据帧。 结果是一个5列数据框，其中原始列的位置顺序不同。 这是我尝试过的一些方法：

dfTrain = pd.read_csv("agr_hi_train.csv")
dfTrain2 = pd.read_csv("english/agr_en_train.csv")
dfTrain2.reset_index()
frames = [dfTrain, dfTrain2]
test = dfTrain2.append(dfTrain, ignore_index=True)
test2 = dfTrain2.append(dfTrain)
test3 = pd.concat(frames, axis=0, ignore_index=True)
test4 = pd.merge(dfTrain,dfTrain2, right_index=True, left_index=True)

结果如下：

print(dfTrain.shape)
print(dfTrain2.shape)
print(test.shape)
print(test2.shape)
print(test3.shape)
print(test4.shape)

输出为：

（20198，5）（20198，5）（11998，6）（8200，6）（8200，3）（11998，3）

我希望结果是：

（20198,3）＃即最后两个堆叠在一起。 。。 有什么想法为什么我要增加额外的列等吗？

Answer 1

如果您使用不同的列名，那么您的附录将分隔各列。 例如：

dfTrain = pd.DataFrame(np.random.rand(8200, 3), columns=['A', 'B', 'C'])
dfTrain2 = pd.DataFrame(np.random.rand(11998, 3), columns=['D', 'E', 'F'])
test = dfTrain.append(dfTrain2)
print(test)

具有输出：

          A         B         C         D         E         F
0      0.617294  0.507264  0.330792       NaN       NaN       NaN
1      0.439806  0.355340  0.757864       NaN       NaN       NaN
2      0.740674  0.332794  0.530613       NaN       NaN       NaN
...
20195       NaN       NaN       NaN  0.295392  0.621741  0.255251
20196       NaN       NaN       NaN  0.096586  0.841174  0.392839
20197       NaN       NaN       NaN  0.071756  0.998280  0.451681

如果您将两个数据框中的列重命名为匹配的，则它将对齐。

dfTrain2.columns = ['A','B','C']
test2 = dfTrain.append(dfTrain2)
print(test2)

          A         B         C
0      0.545936  0.103332  0.939721
1      0.258807  0.274423  0.262293
2      0.374780  0.458810  0.955040
...
[20198 rows x 3 columns]

大熊猫堆叠数据框重塑数据

问题描述

1 个解决方案

解决方案1
0 2018-04-27 16:54:39

大熊猫堆叠数据框重塑数据

问题描述

1 个解决方案

解决方案1 0 2018-04-27 16:54:39

解决方案1
0 2018-04-27 16:54:39