我有大约 200 个大型 CSV 数据集。 都是一样的格式。 其中大约一半是> 100mb。 我需要一种将它们合并为 1 个(或几个数据库)的方法。

我尝试使用数据工厂将它们放入 azure 数据库中,但是只上传一个 csv 需要很多时间,更不用说 200。

任何人都可以推荐一种快速且相对轻松的方式将这些文件放入某种数据库中吗? (理想情况下可以支持 SQL 提取)

#1楼 票数:1

这将是您的 Python 脚本的基本大纲:

fout=open("out.csv","a")
# first file:
for line in open("sh1.csv"):
    fout.write(line)
# now the rest:    
for num in range(2,201):
    f = open("sh"+str(num)+".csv")
    f.next() # skip the header
    for line in f:
         fout.write(line)
    f.close() # not really needed
fout.close()

另一个例子

另一个应该适合你的例子

  ask by Gangrel translate from so

未解决问题?本站智能推荐:

2回复

在SSIS中合并2行CSV文件

我有一个 CSV 文件,其中的信息分布在两行第 1 行包含姓名和年龄第 2 行包含详细信息,如地址、城市、工资、职业我想合并 2 行以将其插入数据库。 CSV 文件: 在 SQL Server 中,我可以使用游标来完成。 但是我必须在SSIS中做。
2回复

SSIS将2个csv文件转换为1个csv文件

我有2个包含不同标头和数据的csv文件(以下为示例) csv1 CSV2 我想加入两个csv文件,并将csv 1中的电话分机链接与csv 2中的雇员编号,然后导出到一个包含文件和数据头的csv文件。 我要这个: 做这个的最好方式是什么。 我已经尝试过使用排序和合并,但是我无法
2回复

CSV文件格式更改

我在 SSIS 中使用平面文件数据提供程序从外部系统导入数据。 我对文件没有任何控制权,它每周推送一次,然后我从一个公共文件夹中提取它。 CSV 的前两列是日期。 通过文件的一部分,日期格式已从日期更改为数字,如下所示: 如您所见,格式从日期更改为数字。 此处未显示的其他日期列也已更改。 显然,这
2回复

CSV文件通过SSIS导入SQLServer

我正在尝试通过创建平面文件连接将.csv文件使用SSIS导入SQL Server。 .csv文件中有一个字段,其中的逗号作为数据的一部分。 见下表: 姓名 地址 日期 风俗 约翰 42,XYZ 12-2
3回复

从CSV文件填充SQL数据库

我需要使用带有SSIS的CSV文件创建数据库。 CSV文件包含四列: 我需要使用该表的信息来填充我在下面的SQL中创建的三个表。 我已经意识到我需要的是使用Employee Table, EmployeeNumber和Group Table, GroupID一列来填充Employe
3回复

在SQLServer中自动导入CSV文件

我目前正在使用 SSIS 定期将大量 CSV 文件导入我们的系统。 这些导入过程是使用 SQL Server 代理安排的 - 这应该有一个圆满的结局。 但是,我们从中接收数据的供应商之一喜欢不时更改文件格式(感觉就像一个月两次),在 SSIS 中实施这些更改是一种极大的痛苦。 有没有一种不那么痛苦的
1回复

将CSV导入SQlServer2005的最简单方法

我有几个文件,每个我需要导入SQL Server 2005的CSV数据大约5k。 这对于DTS来说过去很简单。 我之前试过使用SSIS,它似乎是努力的10倍,我最终放弃了。 将csv数据导入sql server最简单的方法是什么? 理想情况下,工具或方法也会创建表,因为其中有大约15
2回复

将.xlsx文件另存为.csv文件的SSIS过程

我正在尝试从FTP服务器下载.xlsx excel文件并将其保存为.csv文件格式。 我现在可以使用SSIS中的ftp任务从服务器下载文件,并将其保存在本地文件夹中,现在我想将该文件另存为csv文件格式以进行导入过程。 我找不到从.xlxs到csv的转换方法或任务。 我尝试了脚本任务,但是