简体   繁体   English

使用 .csv 文件的最佳方法,具有 4 个 gigas

[英]Best approach to work with .csv files with 4 gigas

I am on data science.我从事数据科学。 I have a.csv file with 5kk records and 3.9gigas of size.我有一个 .csv 文件,其中包含 5kk 条记录和 3.9gigas 大小。 Whats the best pratice to deal with it?处理它的最佳做法是什么? I normally use vscode or jupyter and even when i set max-memory to 10gigas the operations like load etc are taking too much time to complete.我通常使用 vscode 或 jupyter,即使我将 max-memory 设置为 10gigas,加载等操作也需要花费太多时间才能完成。

What do you recommend to improve my work?你有什么建议来改进我的工作?

notebook lenovo S145 20gigas ram i7-8565U - Ubuntu

Thanks谢谢

If you want to bring a CSV into a database for reporting, one fairly quick and easy option is to use an external table.如果您想将 CSV 带入数据库进行报告,一个相当快速且简单的选择是使用外部表。 It uses syntax similar to SQLLDR in the create table definition.它在创建表定义中使用类似于SQLLDR的语法。 Once established, the latest saved CSV data will immediately be available as a table in the database.一旦建立,最新保存的 CSV 数据将立即作为数据库中的表提供。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM