繁体   English   中英

Python - 并行 SQL 查询并返回每个数据帧

[英]Python - Parallel SQL Queries and return dataframes for each

所以我一直在研究 Python 中的多进程或并行进程来执行大约十几个 SQL 查询。 现在,查询是串行完成的,大约需要 4 分钟,其中 1 个查询与其他 11 个查询一样长。 所以理论上,如果我可以并行运行所有查询,我至少可以将总运行时间减少一半。

我正在尝试按照以下方式做一些事情,但如果我目前的思维过程确实可行,我无法找到支持文档:

所以,说我有:

SSMS_query1 = "SELECT * FROM TABLE1"

SSMS_query2 = "SELECT * FROM TABLE2"

HANADB_query3 = "SELECT * FROM TABLE3"

因此,要连接到 SSMS,我使用:

import pyodbc
server = "server_name"
cnxn = pyodbc.connect("DRIVER={SQL Server};SERVER=" + server + ";trusted_connection=Yes")

然后连接到我的HANAdb,我使用:

from hdbcli import dbapi
conn = dbapi.connect(address="", port=, user="", password="")

然后基本上我想做一些可以利用池来节省时间的事情,例如:

import pandas as pd
with cnxn, conn as ssms, hana:
    df1 = pd.read_sql(SSMS_query1, ssms)
    df2 = pd.read_sql(SSMS_query2, ssms)
    df3 = pd.read_sql(HANADB_query3, hana)

我试过使用:

import multiprocessing
import threading

但是我无法得到想要的 output,因为最终我想要 output df1、df2 和 df3 到 excel。 那么如何存储数据帧并将它们用作 output 稍后使用并行性?

我认为多线程可能比不知道要创建的数据帧有多大的多处理更有效,因为通常使用多处理将结果从子进程移回主进程会有更多的开销。 但由于查询需要 4 分钟,我不得不假设数据量相当大。 此外,大部分时间都花在了非常适合多线程的网络活动上。

在这里,我假设最坏的情况是无法在线程之间共享数据库连接。 如果不是这种情况,则只创建一个连接并将其用于所有提交的任务:

from multiprocessing.pool import ThreadPool
import time
import pandas as pd
import pyodbc

def run_sql(conn, sql):
    return pd.read_sql(sql, conn)

def main():
    SSMS_query1 = "SELECT * FROM TABLE1"
    SSMS_query2 = "SELECT * FROM TABLE2"
    HANADB_query3 = "SELECT * FROM TABLE3"
    
    queries = (SSMS_query1, SSMS_query2, HANADB_query3)
    n_queries = len(queries)

    server = "server_name"
    connections = [
        pyodbc.connect("DRIVER={SQL Server};SERVER=" + server + ";trusted_connection=Yes")
            for _ in range(n_queries)
    ]

    t0 = time.time()
    # One thread per query:
    with ThreadPool(n_queries) as pool:
        results = pool.starmap(run_sql, zip(connections, queries))    
        t1 = time.time()
        print(results)
        print(t1 - t0)

if __name__ == '__main__':
    main()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM