简体   繁体   English

流式处理大型csv文件的最快方法是什么?

[英]What is the fastest way to stream a large csv file?

I've compared the built-in csv reader with Pandas's read_csv . 我已经将内置的csv阅读器与Pandas的read_csv The former is significantly slower. 前者要慢得多。 However, I have a need to stream csv files due to memory limitation. 但是,由于内存限制,我需要流式传输csv文件。 What streaming csv reader that is as fast or almost as fast as Pandas? 什么流式csv阅读器与Pandas一样快或几乎一样快?

在pandas.read_csv中,您可以使用“ chunksize”选项,如果这样做,pandas返回的对象将是一个迭代器(TextFileReader类型),当迭代结束时,它将返回一个读取number_of_rows <= chunksize的DataFrame(我没有意识到该选项存在,直到我阅读源代码...)。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM