如何從文本文件中切出第二列和第三列？蟒蛇

Question

我有一個制表符分隔的文件，其中包含以下行：

foo bar bar <tab>x y z<tab>a foo foo
...

想象一百萬行，每行最多200個單詞。 每個單詞平均5-6個字符。

在第二欄和第三欄，我可以這樣做：

with open('test.txt','r') as infile:
  column23 = [i.split('\t')[1:3] for i in infile]

或者我可以使用unix，如何在bash的tab delim文件中獲得第二和第三列？

import os
column23 = [i.split('\t') os.popen('cut -f 2-3 test.txt').readlines()]

哪個更快？ 還有其他方法可以提取第二列和第三列嗎？

Answer 1

都不使用。 除非證明它太慢，否則請使用csv模塊，該模塊更具可讀性。

import csv
with open('test.txt','r') as infile:
    column23 = [ cols[1:3] for cols in csv.reader(infile, delimiter="\t") ]

Answer 2

如果每行可以有數百個制表符分隔的條目，而您只需要第二個和第三個條目，則無需將它們全部split ； 您可以使用maxsplit參數來加快速度：

with open('test.txt','r') as infile:
    column23 = [i.split('\t', 3)[1:3] for i in infile]

誰知道，也許聰明的正則表達式會更快：

import re
regex = re.compile("^[^\t\n]*\t([^\t\n]*)\t([^\t\n]*)", re.MULTILINE)
with open('test.txt','r') as infile:
    columns23 = regex.findall(infile.read())

如何從文本文件中切出第二列和第三列？蟒蛇

問題描述

2 個解決方案

解決方案1
3 已采納 2014-04-22 14:45:46

解決方案2
1 2014-04-22 14:25:43

如何從文本文件中切出第二列和第三列？ 蟒蛇

問題描述

2 個解決方案

解決方案1 3 已采納 2014-04-22 14:45:46

解決方案2 1 2014-04-22 14:25:43

如何從文本文件中切出第二列和第三列？蟒蛇

解決方案1
3 已采納 2014-04-22 14:45:46

解決方案2
1 2014-04-22 14:25:43