熊猫to_csv写一些额外的行

Question

我有一个具有1000K +行的大型DataFrame 。 我在jupyter笔记本中工作，加载数据，进行一些更改，然后尝试保存处理后的数据。

new_data = origin_data.apply(func)
news_data.to_csv('path',sep='\t')

但是当我检查保存的文件时，我发现似乎来自origin_data一些额外的行。 但是，如果我使用pd.read_csv加载文件，一切似乎都正确。 我检查了错误行周围的行和列的类型，没有错。 我尝试了其他方法来保存数据，例如

csv.writer.writerows(new_data.values)

但是多余的行仍然存在，我无法在new_data.values找到它们。

有没有人遇到这样的问题。 提前致谢。

Answer 1

很可能您在某些文本列中有换行符'\\n'它们将被引用为"some text ...\\n some text" 。

考虑以下演示：

CSV文件（4行，包括标题）：

a,b,c
11,"text
we are still in the same cell...",33
22,aaa,44

DataFrame只有两个数据行：

In [191]: pd.read_csv(r'C:\Temp\a.csv')
Out[191]:
    a                                         b   c
0  11  text\r\nwe are still in the same cell...  33
1  22                                       aaa  44

Answer 2

是否在不使用apply函数的情况下遇到问题？ Apply函数被调用两次并产生副作用： https : //github.com/pandas-dev/pandas/issues/6753

熊猫to_csv写一些额外的行

问题描述

2 个解决方案

解决方案1
2 2018-01-17 16:24:21

解决方案2
0 2018-01-17 16:22:30

熊猫to_csv写一些额外的行

问题描述

2 个解决方案

解决方案1 2 2018-01-17 16:24:21

解决方案2 0 2018-01-17 16:22:30

解决方案1
2 2018-01-17 16:24:21

解决方案2
0 2018-01-17 16:22:30