如何讀取大文件txt，然后制作數據框

Question

我有一個很大的txt文件（52.375 kb，ln 86213，col 420）。

name    | code  | school 
--------|-------|--------
steven  | 1234  | harvard
Michael | 98765 | MIT

我想閱讀它並將其作為熊貓的數據框。

Df = statement_read(myfile.Txt)

我不想手動將txt轉換為csv。 我想通過python讀取myfile.txt，因此可以通過pandas處理它。

Answer 1

如果要使用pandas處理大文件，則需要使用pandas塊，例如10 GB的文件，可以選擇100 mb的塊大小作為示例，請注意，塊大小是您決定的行數讀取每個塊。

import pandas as pd
for chunk in pd.read_csv('file.csv',chunksize=3):
    print(chunk[['name','code']])

更新

假設您有數十億條記錄的樣本文件

name,code,school

student1,c1,sch22
student2,c2,sch22
student3,c3,sch22
student4,c4,sch22
student5,c5,sch22
student6,c6,sch23
  .       .   .
  .       .   .

上面的代碼應在每個補丁中獲取3行，如下所示

       name code school
0  student1   c1  sch22
1  student2   c2  sch22
2  student3   c3  sch22
       name code school
3  student4   c4  sch22
4  student5   c5  sch22
5  student6   c6  sch23
       name code school
6  student7   c7  sch24
7  student8   c8  sch25
8  student9   c9  sch26

如何讀取大文件txt，然后制作數據框

問題描述

1 個解決方案

解決方案1
1 已采納 2019-05-24 01:32:34

更新

如何讀取大文件txt，然后制作數據框

問題描述

1 個解決方案

解決方案1 1 已采納 2019-05-24 01:32:34

更新

解決方案1
1 已采納 2019-05-24 01:32:34