繁体   English   中英

使用chunksize的Pandas read_csv正在跳过数据

[英]Pandas read_csv with chunksize is skipping data

我正在使用具有19090680行的数据集。 那是超过1900万。 如果将chunksize设置为10 ** 6,我的代码将运行两次。 也就是说,在终止之前要处理200万行。 如果我将chunksize设置为1000,我在退出for循环之前处理19087680行。 那仍然只剩下3000行未处理。 知道为什么吗?

这是我的代码。

cs = 1000
reader = pd.read_csv(file, delimiter='|', header=None, iterator=True, chunksize=cs) 
chunkCount = 0
for chunk in reader:
    processedSeries = chunk.apply(process, axis=1)
    processedSeries.to_csv("processed_data.csv", index=False, sep='|', header=None, mode='a')

编辑:我有熊猫0.17.1-np110py35_0我正在更新过程中,以查看是否可以解决此问题。

升级到Pandas 0.18.0解决了这个问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM