Python熊猫。使用Series创建DataFrame不会保留dtype

Question

我有一个用例，我认为这很常见，所以我认为我的这个问题应该很容易为自己回答，但我无法找到答案。 考虑以下。

df = pandas.DataFrame({"id": numpy.random.choice(range(100), 5, replace=False),
                       "value": numpy.random.rand(5)})
df2 = pandas.DataFrame([df["id"], df["value"]*2]).T

基本上我是基于旧的DataFrame ， df的值创建一个DataFrame ， df2 。 现在，如果我们跑

print(df.dtypes, end="\n------\n")
print(df2.dtypes)

我们得到

id         int64
value    float64
dtype: object
------
id       float64
value    float64
dtype: object

你可以看到， dtype的第一列的df2是float64 ，而不是int64 ，因为它应该是，即使dtype的的Series本身int64 。 这种行为让我非常困惑，我无法相信这是故意的。 如何创建一个DataFrame从一些Series S和维护dtype的S- Series S' 在我看来，它应该像pandas.DataFrame([s1, s2], dtypes=[int, float]) ，但由于某些原因你不能在pandas这样做。

Answer 1

DataFrame的列始终具有单个dtype。 （这是因为，在引擎盖下，Pandas存储了在块中具有相同dtype的数据列。）

当pd.DataFrame传递一个Series列表时，它会将每个Series解压缩到一个单独的行中。 由于该系列具有不同的dtypes，因此列最终会显示具有混合dtypes的值。 Pandas尝试通过将每列中的所有值升级为单个dtype来解决此问题。

您可以使用以下命令定义df2 ：

df2 = pd.DataFrame({'id': df["id"], 'value': df["value"]*2})

要么

df2 = df.copy()
df2['value'] *= 2

要么

df2 = pd.concat([df["id"], df["value"]*2], axis=1)

Python熊猫。使用Series创建DataFrame不会保留dtype

问题描述

1 个解决方案

解决方案1
4 已采纳 2016-02-09 15:33:53

Python熊猫。使用Series创建DataFrame不会保留dtype

问题描述

1 个解决方案

解决方案1 4 已采纳 2016-02-09 15:33:53

解决方案1
4 已采纳 2016-02-09 15:33:53