如何使用 pandas 导入多个 csv 文件并连接成一个 DataFrame

Question

I have problem No objects to concatenate .我有问题No objects to concatenate 。 I can not import.csv files from main and its subdirectories to concatenate them into one DataFrame.我无法从主目录及其子目录中导入.csv 文件，以将它们连接成一个 DataFrame。 I am using pandas.我正在使用 pandas。 Old answers did not help me so please do not mark as duplicated.旧答案对我没有帮助，所以请不要标记为重复。

Folder structure is like that文件夹结构是这样的

main/*.csv
main/name1/name1/*.csv
main/name1/name2/*.csv
main/name2/name1/*.csv
main/name3/*.csv

import pandas as pd
import os
import glob

folder_selected = 'C:/Users/jacob/Documents/csv_files'

not works不工作

frame = pd.concat(map(pd.read_csv, glob.iglob(os.path.join(folder_selected, "/*.csv"))))

not works不工作

csv_paths = glob.glob('*.csv')
dfs = [pd.read_csv(folder_selected) for folder_selected in csv_paths]
df = pd.concat(dfs)

not works不工作

            all_files = []
            
            all_files = glob.glob (folder_selected + "/*.csv")
            
            file_path = []
            for file in all_files:
                df = pd.read_csv(file, index_col=None, header=0)
                file_path.append(df)
                    
        frame = pd.concat(file_path, axis=0, ignore_index=False)

Answer 1

Check Dask Library as following, which reads many files to one df如下检查 Dask 库，它将许多文件读取到一个 df

>>> import dask.dataframe as dd
>>> df = dd.read_csv('data*.csv')

Read their docs https://examples.dask.org/dataframes/01-data-access.html#Read-CSV-files阅读他们的文档https://examples.dask.org/dataframes/01-data-access.html#Read-CSV-files

Answer 2

You need to search the subdirectories recursively.您需要递归搜索子目录。

folder = 'C:/Users/jacob/Documents/csv_files'
path = folder+"/**/*.csv"

Using glob.iglob使用glob.iglob

df = pd.concat(map(pd.read_csv, glob.iglob(path, recursive=True)))

Using glob.glob使用glob.glob

csv_paths = glob.glob(path, recursive=True)
dfs = [pd.read_csv(csv_path) for csv_path in csv_paths]
df = pd.concat(dfs)

Using os.walk使用os.walk

file_paths = []
for base, dirs, files in os.walk(folder):
    for file in fnmatch.filter(files, '*.csv'):
        file_paths.append(os.path.join(base, file))
df = pd.concat([pd.read_csv(file) for file in file_paths])

Using pathlib使用pathlib

from pathlib import Path
files = Path(folder).rglob('*.csv')
df = pd.concat(map(pd.read_csv, files))

Answer 3

Python's pathlib is a tool for such tasks Python 的pathlib是完成此类任务的工具

from pathlib import Path

FOLDER_SELECTED = 'C:/Users/jacob/Documents/csv_files'

path = Path(FOLDER_SELECTED) / Path("main")

# grab all csvs in main and subfolders
df = pd.concat([pd.read_csv(f.name) for f in path.rglob("*.csv")])

Note:笔记：

If the CSV need preprocing, you can create a read_csv function to deal with issues and place it in place of pd.read_csv如果 CSV 需要预处理，您可以创建一个 read_csv function 来处理问题并将其放置在 pd.read_csv 的位置

如何使用 pandas 导入多个 csv 文件并连接成一个 DataFrame

问题描述

3 个解决方案

解决方案1
2 2020-12-26 07:54:39

解决方案2
2 已采纳 2020-12-26 08:19:39

解决方案3
1 2020-12-26 08:34:52

Note:笔记：

如何使用 pandas 导入多个 csv 文件并连接成一个 DataFrame

问题描述

3 个解决方案

解决方案1 2 2020-12-26 07:54:39

解决方案2 2 已采纳 2020-12-26 08:19:39

解决方案3 1 2020-12-26 08:34:52

Note:笔记：

解决方案1
2 2020-12-26 07:54:39

解决方案2
2 已采纳 2020-12-26 08:19:39

解决方案3
1 2020-12-26 08:34:52