非常大的 CSV 文件 - 如何僅將某些行讀入數據幀

Question

我有一個非常大的 csv 文件，我無法使用 pandas read_csv 加載到我的計算機 memory。

我看dask.dataframe as dd

我需要使用 dask 從該 csv 文件中僅讀取某些列的某些行並將其存儲為熊貓 dataframe。

例如：

User  ProductA  ProductB
A     1         2
B     2         3
C     3         1

如何使用 dask 僅讀取用戶 C 的行和 ProductA 列？

需要 output 作為數據幀：

User  ProductA
C     3

Answer 1

You can use the read_csv function of dask.dataframe , filter and then transform your df to a pandas dataframe:

import dask.dataframe as dd
import pandas as pd

path2file = "yourpath.csv"
cols = ["User", "ProductA"]
# Be careful about the sep (check if it is ; or something else and add it to the
# function below as parameter if so
dataset = dd.read_csv(path2file, usecols=cols)
# Filter 
dataset = dataset.loc[dataset["User"]=="C"]), :]
dataset = dataset.compute()

非常大的 CSV 文件 - 如何僅將某些行讀入數據幀

問題描述

1 個解決方案

解決方案1
2 2020-04-04 06:32:03

非常大的 CSV 文件 - 如何僅將某些行讀入數據幀

問題描述

1 個解決方案

解決方案1 2 2020-04-04 06:32:03

解決方案1
2 2020-04-04 06:32:03