Pandas 僅讀取 CSV 文件的特定行

Question

我有一個非常大的 CSV 使用普通pd.read_csv命令需要大約 30 秒才能讀取。 有沒有辦法加快這個過程？ 我在想可能只讀取在其中一列中具有某些匹配值的行的東西。 即僅讀取“A”列中的值為“5”的行。

Answer 1

Dask模塊可以對 Python 中的大型 CSV 文件進行惰性讀取。

您可以通過調用.compute()方法來觸發計算。 此時文件以塊的形式讀取並應用您指定的任何條件邏輯。

import dask.dataframe as dd

df = dd.read_csv(csv_file)
df = df[df['A'] == 5]

df = df.compute()
print(len(df)) # print number of records

print(df.head()) # print first 5 rows to show sample of data

Answer 2

如果要在 CSV 文件中查找值，則必須查找整個文檔，然后將其限制為 5 個結果。

如果您只想檢索前五行，您可能正在尋找以下內容：

nrows ：int，可選

要讀取的文件行數。 對於讀取大文件片段很有用。

參考： https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

Answer 3

試着把它分塊，伙計。 松露洗牌！ Goonies 永遠不要說死。

mylist = []
for chunk in  pd.read_csv('csv_file.csv', sep=',', chunksize=10000):
    mylist.append(chunk[chunk.A == 5])

big_data = pd.concat(mylist, axis= 0)
del mylist

Pandas 僅讀取 CSV 文件的特定行

問題描述

3 個解決方案

解決方案1
0 2022-08-01 22:50:25

解決方案2
0 2022-08-01 23:17:52

解決方案3
0 2022-09-06 02:41:11

Pandas 僅讀取 CSV 文件的特定行

問題描述

3 個解決方案

解決方案1 0 2022-08-01 22:50:25

解決方案2 0 2022-08-01 23:17:52

解決方案3 0 2022-09-06 02:41:11

解決方案1
0 2022-08-01 22:50:25

解決方案2
0 2022-08-01 23:17:52

解決方案3
0 2022-09-06 02:41:11