![](/img/trans.png)
[英]How to get pandas dataframe by chunks from csv files in huge tar.gz without unzipping and iterating over them?
[英]How to create Panda Dataframe from csv that is compressed in tar.gz?
如何從tar.gz中壓縮的csv文件創建pandas DataFrame? 我找到了執行此操作的代碼,但帶有zip文件。 我應該在以下代碼中進行哪些更改,以使其能夠與tar.gz一起使用,而無需下載tar.gz和csv文件。
import pandas, requests, zipfile, StringIO
r =requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.zip')
z = zipfile.ZipFile(StringIO.StringIO(r.content))
df=pandas.read_csv(z.open('sample_CSV.csv'))
我的文件是https://ghtstorage.blob.core.windows.net/downloads/mysql-2016-06-16.tar.gz
您可以嘗試以下提取tar.gz的方法,如下所示:
import tarfile
tar = tarfile.open(fname, "r:gz")
tar.extractall()
tar.close()
嘗試僅提供.tar.gz
文件作為文件名
到read_csv
,它將自動解壓縮並打開它,
因為這是gz
文件的默認行為。
確保擴展名是小寫。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.