使用Python熊猫读取制表符分隔的文件

Question

我在使用Pandas读取制表符分隔的文件时遇到问题。

所有单元格值都有双引号，但是对于某些行，还有一个额外的双引号破坏了整个过程。 例如：

Column A  Column B  Column C
"foo1"    "121654"  "unit"
"foo2"    "1214"    "unit"
"foo3"    "15884""

我得到的错误是：错误标记数据。 C错误：在8355行中预期有31个字段，看到了58

我使用的代码是：

csv = pd.read_csv(file, sep='\t',  lineterminator='\n', names=None)

对于其余文件，效果很好，但对于出现此多余双引号的文件，效果不佳。

Answer 1

您可以执行预处理步骤来解决报价问题：

with open(file, 'r') as fp:
    text = fp.read().replace('""', '"')

with open(file, 'w') as fp:
    fp.write(text)

Answer 2

如果您不能更改错误的输入，最好的方法是将输入文件读入io.StringIO对象，替换双引号，然后将此类似文件的对象传递给pd.read （它支持文件名和类似文件的对象）

这样，您不必创建临时文件或更改输入数据。

import io

with open(file) as f:
    fileobject = io.StringIO(f.read().replace('""','"'))

csv = pd.read_csv(fileobject, sep='\t',  lineterminator='\n', names=None)

使用Python熊猫读取制表符分隔的文件

问题描述

2 个解决方案

解决方案1
1 2017-06-22 12:18:22

解决方案2
1 已采纳 2017-06-22 12:53:07

使用Python熊猫读取制表符分隔的文件

问题描述

2 个解决方案

解决方案1 1 2017-06-22 12:18:22

解决方案2 1 已采纳 2017-06-22 12:53:07

解决方案1
1 2017-06-22 12:18:22

解决方案2
1 已采纳 2017-06-22 12:53:07