Python解析一個巨大的文件

Question

我正在尋找有效的方法來加載一個包含數據的大文件。

該文件具有以下格式

1\\tword1\\tdata

2\\tword2\\tdata

3\\tword3\\tdata

\\r\\n

1\\tword4\\tdata

2\\tword2\\tdata

\\r\\n

其中\\r\\n定義由單詞組成的句子的結尾。

我有興趣加載文件和保存結構，即我想引用句子和句子中的單詞，一般作為結果我想得到這樣的東西

data = [sentence1, sentence2,... ]

其中sentence = [word1,word2,...]

逐行加載文件需要花費大量時間，批量加載文件效率更高，但我不知道如何解析和分割數據到句子。

目前我使用以下代碼

def loadf(filename):
    n = 100000
    data = []
    with open(filename) as f:
        while True:
            next_n_lines = list(islice(f, n))
            if not next_n_lines:
                break
            data.extend([line.strip().split('\t') for line in next_n_lines])

使用此代碼我不知道如何將數據划分為句子，此外我懷疑extend實際上不會擴展當前列表但創建一個新列表並重新分配，因為它非常慢。

我將不勝感激任何幫助。

Answer 1

怎么樣：

import csv
from itertools import groupby

with open(yourfile) as fin:
    tabin = csv.reader(fin, delimiter='\t')
    sentences = [[el[1] for el in g] for k, g in groupby(tabin, bool) if k]

Python解析一個巨大的文件

問題描述

1 個解決方案

解決方案1
4 已采納 2013-12-18 07:25:54

Python解析一個巨大的文件

問題描述

1 個解決方案

解決方案1 4 已采納 2013-12-18 07:25:54

解決方案1
4 已采納 2013-12-18 07:25:54