簡體   English   中英

熊貓性能:在一列中有多個dtype還是分成不同的dtype?

[英]Pandas performance: Multiple dtypes in one column or split into different dtypes?

我有很多與我合作的熊貓DataFrame。 20毫米行30列 這些行包含大量數據,每行都有一個使用某些列的“類型”。 因此,我目前已將DataFrame設計為具有一些列,這些列混合了dtype以用於該行的“類型”。

我的問題是,從性能角度來看,我應該將混合的dtype列拆分為兩個單獨的列還是將它們保持為一體? 我遇到了使其中一些DataFrame甚至保存(to_pickle)並試圖盡可能高效的問題。

列可以是當前構造的float / str,float / int,float / int / str的混合。

在我看來,這可能取決於您的后續用例。 但是恕我直言,我會讓每個列都成為唯一的類型,否則諸如匯總功能之類的函數以及其他常見的Pandas函數將根本無法工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM