[英]Optimize Pandas Memory Usage
我正在嘗試導入數據。 我收到Memory Error
。 我增加了虛擬內存,數據大小為 2.71 GB。 想着提前設置數據類型來優化內存消耗,於是找到了這個網站: Optimize Pandas Memory Usage for Large Datasets
base_path = pathlib.Path('dataset')
base_airbnb = pd.DataFrame()
for file in base_path.iterdir():
df = pd.read_csv(r'dataset\{}'.format(file.name))
base_airbnb = base_airbnb.append(df)
display(base_airbnb)
如何設置 pandas 列類型以減少內存消耗?
ParserError: Error tokenizing data. C error: out of memory
首先,不推薦使用df.append
,而應使用pd.concat
。
base_path = pathlib.Path('dataset')
base_airbnb = []
for file in base_path.iterdir():
base_airbnb.append(pd.read_csv(rf'dataset\{file.name}', dtype={'a': np.float64, 'b': np.int32, 'c': 'Int64'})
base_airbnb = pd.concat(base_airbnb)
至於如何設置 dtypes... 遵循文檔中給出的模式。
{'a': np.float64, 'b': np.int32, 'c': 'Int64'}
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.