減少python中sqlite3執行/fetchone的時間

Question

語境

我正在處理幾個以專有格式存儲電力系統解決方案結果的文件。 數據的格式相當簡單，但每個結果文件約為 50MB。 提供了一個 API 來查詢文件格式，但我需要做很多查詢，而且這個 API 非常慢。

我編寫了一個程序來使用 API 將這些文件中的幾個相互比較，然后讓它運行幾個小時無濟於事。 我的下一個想法是對文件進行一次傳遞，將我需要的數據存儲到 sqlite3 數據庫中，然后進行查詢。 這讓我在 20 分鍾內得到了結果。 好多了。 重組數據以盡可能避免 JOIN：12 分鍾。 將 .db 文件存儲在臨時本地位置而不是網絡上：8.5 分鍾。

進一步改進

該程序以目前的速度或多或少是可以忍受的，但是當它完成時，該程序每天將運行很多很多次。 目前，62% 的運行時間花費在 .execute/.fetchone 的 721 次調用上。

      160787763 function calls (160787745 primitive calls) in 503.061 seconds
Ordered by: internal time
List reduced from 1507 to 20 due to restriction <20>
ncalls  tottime  percall  cumtime  percall filename:lineno(function)
   721  182.869    0.254  182.869    0.254 {method 'fetchone' of 'sqlite3.Cursor' objects}
   721  129.355    0.179  129.355    0.179 {method 'execute' of 'sqlite3.Cursor' objects}
 24822   45.734    0.002   47.600    0.002 {method 'executemany' of 'sqlite3.Connection' objects}

由於在這個小部分花費了太多時間，我想我會在繼續之前詢問任何改進它的想法。 我覺得我可能會錯過一些簡單的東西，更有經驗的眼睛會注意到。 該程序的這一特定部分的結構基本上是這樣的：

for i, db in enumerate(dbs):
    for key, vals in dict.iteritems():
        # If it already has a value, no need to get a comparison value
        if not vals[i]:
            solution_id = key[0]
            num = key[1]

            # Only get a comparison value if the solution is valid for the current db
            if solution_id in db.valid_ids:
                db.cur.execute("""SELECT value FROM table WHERE solution == ? AND num == ?""",
                               (solution_id, num))
                try:
                    vals[i] = db.cur.fetchone()[0]
                # .fetchone() could have returned None, no __getitem__
                except TypeError:
                    pass

字典結構是：

dict = {(solution_id, num): [db1_val, db2_val, db3_val, db4_val]}

每個條目至少有一個 db_val，其他都是None 。 上面循環的目的是填充每個可以填充的 db_val 點，以便您可以比較值。

問題

我讀過 sqlite3 SELECT 語句只能用 .execute 執行，因此我無法使用 .executemany（這為我節省了大量的插入時間）。 我還閱讀了 python 文檔，直接從連接對象使用 .execute 可以更有效，但我不能這樣做，因為我需要獲取數據。

有沒有更好的方法來構建循環或查詢，以最大限度地減少在 .execute 和 .fetchone 語句上花費的時間？

答案

根據 CL 和 Rocksportrocker 提供的答案，我將 table create 語句（簡化版）從：

CREATE TABLE table(
solution integer, num integer, ..., value real,
FOREIGN KEY (solution) REFERENCES solution (id),
FOREIGN KEY (num) REFERENCES nums (id)
);

到：

CREATE TABLE table(
solution integer, num integer, ..., value real,
PRIMARY KEY (solution, num),
FOREIGN KEY (solution) REFERENCES solution (id),
FOREIGN KEY (num) REFERENCES nums (id)
) WITHOUT ROWID;

在我的測試用例中，

文件大小保持不變
.executemany INSERT 語句從 ~46 秒增加到 ~69 秒
.execute SELECT 語句從 ~129 減少到 ~5 秒
.fetchone 語句從 ~183 減少到 ~0 秒
總時間從 ~503 秒減少到 ~228 秒，原始時間的 45%

仍然歡迎任何其他改進，希望這可以成為其他 SQL 新手的一個很好的參考問題。

Answer 1

execute()和fetchone()調用是數據庫完成所有工作的地方。

為了加快查詢速度，必須對查找列進行索引。 為了節省空間，您可以使用聚集索引，即，使表成為WITHOUT ROWID 表。

Answer 2

您是否考慮在solution列上引入索引？ 會增加.db文件的插入時間和大小。

減少python中sqlite3執行/fetchone的時間

問題描述

語境

進一步改進

問題

答案

2 個解決方案

解決方案1
1 已采納 2017-09-28 13:09:53

解決方案2
0 2017-09-28 12:45:35

減少python中sqlite3執行/fetchone的時間

問題描述

語境

進一步改進

問題

答案

2 個解決方案

解決方案1 1 已采納 2017-09-28 13:09:53

解決方案2 0 2017-09-28 12:45:35

解決方案1
1 已采納 2017-09-28 13:09:53

解決方案2
0 2017-09-28 12:45:35