將數據保存到 Pandas 中的多個 csv 文件

Question

我有一個來自 .gov 網站的數據：

import pandas as pd
import io
import requests
url="https://download.bls.gov/pub/time.series/la/la.data.64.County"
s=requests.get(url).content
c=pd.read_csv(io.StringIO(s.decode('utf-8')))

行數為 4942096。我想將所有這些放入多個 csv 文件中。

我知道如何獲得第一個百萬：

c.to_csv('nick.csv', index = False, chunksize = 1000000)

我如何獲得其余的？

Answer 1

您可以遍歷文件並將其保存為：

filename = io.StringIO(s.decode('utf-8'))
# ^ not tested this but assuming it would work for readability sake. 

chunk_size = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunk_size):
    chunk.to_csv('nick.csv.gz',compression='gzip',index=False)

您需要添加某種命名約定，否則您將覆蓋文件。 我還添加了 gzip 壓縮，這顯着加快了寫入時間。

我只是個人添加一個計數器

chunk_size = 10 ** 6
counter = 0
for chunk in pd.read_csv(filename, chunksize=chunk_size):
    counter = counter + 1
    chunk.to_csv(f'nick_{str(counter)}.csv.gz',compression='gzip',index=False)

將數據保存到 Pandas 中的多個 csv 文件

問題描述

1 個解決方案

解決方案1
4 已采納 2019-09-17 00:00:49

將數據保存到 Pandas 中的多個 csv 文件

問題描述

1 個解決方案

解決方案1 4 已采納 2019-09-17 00:00:49

解決方案1
4 已采納 2019-09-17 00:00:49