繁体 English 中英

将多个文件读入dask dataframe

[英]reading multiple files into dask dataframe

原文 2021-04-13 14:30:47 7 1 python/ dask/ dask-dataframe

我想将多个 csv 文件读入一个单独的 dask dataframe。 由于某些原因，我的原始数据的某些部分丢失了（不知道为什么？）？ 我想知道将它们全部读入dask的最佳方法是什么。 我使用了一个 for 循环，但不确定它是否正确。

 for file in os.listdir(dds_glob): if file.endswith('issued_processed.txt'): ddf = dd.read_fwf(os.path.join(dds_glob,file), colspecs=cols, header=None, dtype=object, names=names)

或者我应该使用这样的东西：

 dfs = delayed(pd.read_fwf)('/data/input/*issued_processed.txt', colspecs=cols, header=None, dtype=object, names=names) ddf = dd.from_delayed(dfs)

1 个解决方案

至少有两种方法：

为dask.dataframe提供文件列表，因此使用您的第一个片段看起来像：

file_list = [
    os.path.join(dds_glob,file)
    for file os.listdir(dds_glob) if file.endswith('issued_processed.txt')
]

# other options are skipped for convenience
ddf = dd.read_fwf(file_list)

从delayed对象构造 dataframe ，使用您的第二个片段看起来像：

# other options are skipped, but can be included after the `file`
dfs = [delayed(pd.read_fwf)(file) for file in file_list] 
ddf = dd.from_delayed(dfs)

第一种方法可以解决大约 82% 的用例，但对于其他情况，您可能需要尝试第二种方法或更复杂的方法。

使用Dask读取多个文件

[英]Reading multiple files with Dask

将文本文件读入 Dask DataFrame

[英]Reading text files into Dask DataFrame

使用 Dask 读取多个 Excel 文件

[英]Reading multiple Excel files with Dask

在 Dask 中读取 Parquet 文件会返回空数据框

[英]Reading Parquet files in Dask returns empty dataframe

Python 和 Dask - 读取和连接多个文件

[英]Python and Dask - reading and concatenating multiple files

从 dask dataframe 保存多个镶木地板文件

[英]Save multiple parquet files from dask dataframe

Dask数据框：读取多个文件并将文件名存储在列中

[英]Dask dataframes: reading multiple files & storing filename in column

将 SQL 查询读入 Dask DataFrame

[英]Reading an SQL query into a Dask DataFrame

加载多个镶木地板文件时保留 dask 数据帧分区

[英]Preserving dask dataframe divisions when loading multiple parquet files

如何从Dask中的镶木地板文件中读取数据帧的单行值？

[英]How to get a single row value of dataframe reading from parquet files in a Dask?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Dask读取多个文件将文本文件读入 Dask DataFrame 使用 Dask 读取多个 Excel 文件在 Dask 中读取 Parquet 文件会返回空数据框 Python 和 Dask - 读取和连接多个文件从 dask dataframe 保存多个镶木地板文件 Dask数据框：读取多个文件并将文件名存储在列中将 SQL 查询读入 Dask DataFrame 加载多个镶木地板文件时保留 dask 数据帧分区如何从Dask中的镶木地板文件中读取数据帧的单行值？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM