簡體   English   中英

優化 Pandas 內存使用

[英]Optimize Pandas Memory Usage

我正在嘗試導入數據。 我收到Memory Error 我增加了虛擬內存,數據大小為 2.71 GB。 想着提前設置數據類型來優化內存消耗,於是找到了這個網站: Optimize Pandas Memory Usage for Large Datasets

base_path = pathlib.Path('dataset')

base_airbnb = pd.DataFrame()

for file in base_path.iterdir():
    df = pd.read_csv(r'dataset\{}'.format(file.name))
    base_airbnb = base_airbnb.append(df)
    
display(base_airbnb) 

如何設置 pandas 列類型以減少內存消耗?

ParserError: Error tokenizing data. C error: out of memory

首先,不推薦使用df.append ,而應使用pd.concat

base_path = pathlib.Path('dataset')
base_airbnb = []

for file in base_path.iterdir():
    base_airbnb.append(pd.read_csv(rf'dataset\{file.name}', dtype={'a': np.float64, 'b': np.int32, 'c': 'Int64'})

base_airbnb = pd.concat(base_airbnb)

至於如何設置 dtypes... 遵循文檔中給出的模式。

  • {'a': np.float64, 'b': np.int32, 'c': 'Int64'}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM