Python：读取超过1M的小型csv文件并写入数据库

Question

我有超过百万次的快照文件，我需要合并并创建一个文件/数据库进行分析。

我尝试在下面的代码中执行此操作。 首先，我从一个URL列表中读取一个小的csv，需要几列，从文本到日期解析日期字段并将其写入sqlite数据库。

虽然这段代码在一小部分文件中运行良好，但迭代超过一百万个CSV的速度太慢。

我不确定如何提高性能，甚至不确定Python是否适合这项工作。 任何帮助改进此代码或建议将不胜感激。

import pandas as pd
from sqlalchemy import create_engine
import datetime
import requests
import csv
import io

csv_database2 = create_engine('sqlite:///csv_database_test.db')

col_num = [0,8,9,12,27,31]

with open('url.csv','r') as line_list:
     reader = csv.DictReader(line_list,)

for line in reader:

    data = requests.get(line['URL'])
    df = pd.read_csv(io.StringIO(data.text), usecols=col_num, infer_datetime_format=True)
    df.columns.values[0] = 'DateTime'
    df['ParseDateTime'] = [datetime.datetime.strptime(t, "%a %b %d %H:%M:%S %Y") for t in df.DateTime]
    df.to_sql('LineList', csv_database2, if_exists='append')

Answer 1

恕我直言python非常适合这项任务，通过简单的修改，您可以实现您想要的性能。

AFAICS可能存在两个影响性能的瓶颈：

下载网址

你一次下载一个文件，如果下载一个文件需要0.2秒下载1M文件，它将需要> 2天！ 我建议您使用concurrent.futures并行下载示例代码：

from concurrent.futures import ThreadPoolExecutor
import requests


def insert_url(line):
    """download single csv url and insert it to SQLite"""
    data = requests.get(line['URL'])
    df = pd.read_csv(io.StringIO(data.text), usecols=col_num,
                     infer_datetime_format=True)
    df.columns.values[0] = 'DateTime'
    df['ParseDateTime'] = [
        datetime.datetime.strptime(t, "%a %b %d %H:%M:%S %Y") for t in
        df.DateTime]
    df.to_sql('LineList', csv_database2, if_exists='append')


with ThreadPoolExecutor(max_workers=128) as pool:
    pool.map(insert_url, lines)

插入SQL

试着看一下如何在这个 SO答案中优化SQL插入。

进一步指导

我会从并行请求开始，因为它似乎是更大的瓶颈
运行探查器以更好地了解代码在大多数情况下花费的时间

Python：读取超过1M的小型csv文件并写入数据库

问题描述

1 个解决方案

解决方案1
1 已采纳 2018-02-25 20:02:36

下载网址

插入SQL

进一步指导

Python：读取超过1M的小型csv文件并写入数据库

问题描述

1 个解决方案

解决方案1 1 已采纳 2018-02-25 20:02:36

下载网址

插入SQL

进一步指导

解决方案1
1 已采纳 2018-02-25 20:02:36