减少python中sqlite3执行/fetchone的时间

Question

语境

我正在处理几个以专有格式存储电力系统解决方案结果的文件。 数据的格式相当简单，但每个结果文件约为 50MB。 提供了一个 API 来查询文件格式，但我需要做很多查询，而且这个 API 非常慢。

我编写了一个程序来使用 API 将这些文件中的几个相互比较，然后让它运行几个小时无济于事。 我的下一个想法是对文件进行一次传递，将我需要的数据存储到 sqlite3 数据库中，然后进行查询。 这让我在 20 分钟内得到了结果。 好多了。 重组数据以尽可能避免 JOIN：12 分钟。 将 .db 文件存储在临时本地位置而不是网络上：8.5 分钟。

进一步改进

该程序以目前的速度或多或少是可以忍受的，但是当它完成时，该程序每天将运行很多很多次。 目前，62% 的运行时间花费在 .execute/.fetchone 的 721 次调用上。

      160787763 function calls (160787745 primitive calls) in 503.061 seconds
Ordered by: internal time
List reduced from 1507 to 20 due to restriction <20>
ncalls  tottime  percall  cumtime  percall filename:lineno(function)
   721  182.869    0.254  182.869    0.254 {method 'fetchone' of 'sqlite3.Cursor' objects}
   721  129.355    0.179  129.355    0.179 {method 'execute' of 'sqlite3.Cursor' objects}
 24822   45.734    0.002   47.600    0.002 {method 'executemany' of 'sqlite3.Connection' objects}

由于在这个小部分花费了太多时间，我想我会在继续之前询问任何改进它的想法。 我觉得我可能会错过一些简单的东西，更有经验的眼睛会注意到。 该程序的这一特定部分的结构基本上是这样的：

for i, db in enumerate(dbs):
    for key, vals in dict.iteritems():
        # If it already has a value, no need to get a comparison value
        if not vals[i]:
            solution_id = key[0]
            num = key[1]

            # Only get a comparison value if the solution is valid for the current db
            if solution_id in db.valid_ids:
                db.cur.execute("""SELECT value FROM table WHERE solution == ? AND num == ?""",
                               (solution_id, num))
                try:
                    vals[i] = db.cur.fetchone()[0]
                # .fetchone() could have returned None, no __getitem__
                except TypeError:
                    pass

字典结构是：

dict = {(solution_id, num): [db1_val, db2_val, db3_val, db4_val]}

每个条目至少有一个 db_val，其他都是None 。 上面循环的目的是填充每个可以填充的 db_val 点，以便您可以比较值。

问题

我读过 sqlite3 SELECT 语句只能用 .execute 执行，因此我无法使用 .executemany（这为我节省了大量的插入时间）。 我还阅读了 python 文档，直接从连接对象使用 .execute 可以更有效，但我不能这样做，因为我需要获取数据。

有没有更好的方法来构建循环或查询，以最大限度地减少在 .execute 和 .fetchone 语句上花费的时间？

答案

根据 CL 和 Rocksportrocker 提供的答案，我将 table create 语句（简化版）从：

CREATE TABLE table(
solution integer, num integer, ..., value real,
FOREIGN KEY (solution) REFERENCES solution (id),
FOREIGN KEY (num) REFERENCES nums (id)
);

到：

CREATE TABLE table(
solution integer, num integer, ..., value real,
PRIMARY KEY (solution, num),
FOREIGN KEY (solution) REFERENCES solution (id),
FOREIGN KEY (num) REFERENCES nums (id)
) WITHOUT ROWID;

在我的测试用例中，

文件大小保持不变
.executemany INSERT 语句从 ~46 秒增加到 ~69 秒
.execute SELECT 语句从 ~129 减少到 ~5 秒
.fetchone 语句从 ~183 减少到 ~0 秒
总时间从 ~503 秒减少到 ~228 秒，原始时间的 45%

仍然欢迎任何其他改进，希望这可以成为其他 SQL 新手的一个很好的参考问题。

Answer 1

execute()和fetchone()调用是数据库完成所有工作的地方。

为了加快查询速度，必须对查找列进行索引。 为了节省空间，您可以使用聚集索引，即，使表成为WITHOUT ROWID 表。

Answer 2

您是否考虑在solution列上引入索引？ 会增加.db文件的插入时间和大小。

减少python中sqlite3执行/fetchone的时间

问题描述

语境

进一步改进

问题

答案

2 个解决方案

解决方案1
1 已采纳 2017-09-28 13:09:53

解决方案2
0 2017-09-28 12:45:35

减少python中sqlite3执行/fetchone的时间

问题描述

语境

进一步改进

问题

答案

2 个解决方案

解决方案1 1 已采纳 2017-09-28 13:09:53

解决方案2 0 2017-09-28 12:45:35

解决方案1
1 已采纳 2017-09-28 13:09:53

解决方案2
0 2017-09-28 12:45:35