[英]pandas to_csv write some extra lines
我有一个具有1000K +行的大型DataFrame
。 我在jupyter笔记本中工作,加载数据,进行一些更改,然后尝试保存处理后的数据。
new_data = origin_data.apply(func)
news_data.to_csv('path',sep='\t')
但是当我检查保存的文件时,我发现似乎来自origin_data
一些额外的行。 但是,如果我使用pd.read_csv
加载文件,一切似乎都正确。 我检查了错误行周围的行和列的类型,没有错。 我尝试了其他方法来保存数据,例如
csv.writer.writerows(new_data.values)
但是多余的行仍然存在,我无法在new_data.values
找到它们。
有没有人遇到这样的问题。 提前致谢。
很可能您在某些文本列中有换行符'\\n'
它们将被引用为"some text ...\\n some text"
。
考虑以下演示:
CSV文件(4行,包括标题):
a,b,c
11,"text
we are still in the same cell...",33
22,aaa,44
DataFrame只有两个数据行:
In [191]: pd.read_csv(r'C:\Temp\a.csv')
Out[191]:
a b c
0 11 text\r\nwe are still in the same cell... 33
1 22 aaa 44
是否在不使用apply函数的情况下遇到问题? Apply函数被调用两次并产生副作用: https : //github.com/pandas-dev/pandas/issues/6753
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.