读取多个压缩成一个文件的csv文件

Question

我在文件夹中的几个zip文件中有几个csv文件，因此例如：

A.zip（包含csv1，csv2，csv3）
B.zip（包含csv4，csv5，csv6）

它们在文件夹路径C:/Folder/ ，当我在文件夹中加载普通的csv文件时，我使用以下代码：

import glob
import pandas as pd
files = glob.glob("C/folder/*.csv")
dfs = [pd.read_csv(f, header=None, sep=";") for f in files]

df = pd.concat(dfs,ignore_index=True)

接下来的文章：在python中读取csv压缩文件

zip中的一个csv的工作方式如下：

import pandas as pd
import zipfile

zf = zipfile.ZipFile('C:/Users/Desktop/THEZIPFILE.zip') 
df = pd.read_csv(zf.open('intfile.csv'))

知道如何为我优化此循环吗？

Answer 1

使用zip.namelist()获取zip文件的列表

例如：

import glob
import zipfile
import pandas as pd

for zip_file in glob.glob("C/folder/*.zip"):
    zf = zipfile.ZipFile(zip_file)
    dfs = [pd.read_csv(zf.open(f), header=None, sep=";") for f in zf.namelist()]
    df = pd.concat(dfs,ignore_index=True)
    print(df)

Answer 2

我会尝试通过两个途径解决它。 首先，将zipfile的内容提取到文件系统中。 第二次通过，使用上面已经有的方法读取所有提取的CSV：

import glob
import pandas as pd
import zipfile

def extract_files(file_path):
  archive = zipfile.ZipFile(file_path, 'r') 
  unzipped_path = archive.extractall()
  return unzipped_path

zipped_files = glob.glob("C/folder/*.zip")]
file_paths = [extract_files(zf) for zf in zipped_files]

dfs = [pd.read_csv(f, header=None, sep=";") for f in file_paths]
df = pd.concat(dfs,ignore_index=True)

读取多个压缩成一个文件的csv文件

问题描述

2 个解决方案

解决方案1
3 已采纳 2019-06-27 07:59:03

解决方案2
1 2019-06-27 07:56:39

读取多个压缩成一个文件的csv文件

问题描述

2 个解决方案

解决方案1 3 已采纳 2019-06-27 07:59:03

解决方案2 1 2019-06-27 07:56:39

解决方案1
3 已采纳 2019-06-27 07:59:03

解决方案2
1 2019-06-27 07:56:39