python并行化db查询执行

Question

我有以下查询返回日期范围之间的数据。

dates = ['20100101','20100201',20100301','20100401']

query = 'select date, company_name, total_amount from info_stats where date between 'start_date' and 'end_date'

我从另一个进程获取日期范围并构造一个列表，以便我可以迭代如下：

pds = []
for idx in range(0, len(dates) - 1):
   formated_query = self.get_formated_query(start_date=dates[idx].strftime('%Y%m%d'),
                                                      end_date=dates[idx + 1].strftime('%Y%m%d')
   results_df = pds.append(pd.read_sql(sql=formated_query,con=db_connect))

查询我在index和index + 1处传递日期（日期大于索引处的日期）

这些查询需要超长时间，我想以并行方式执行，以便等待时间更短。 我去了joblib但不确定这是multi-threading还是multi-processing 。 看起来像前者。 对joblib也是joblib ，如何使用joblib或其他包并行化上面的代码？

Answer 1

这个问题非常广泛，但我可以分享我自己对数据库并行查询的经验。

我发现如果我有很多小工作，我可以使用python内置多线程模块，如concurrent.futures。 我会加快速度。

但是，如果我在数据库上运行需要很长时间的大工作，并行化并没有帮助。 这是因为数据库引擎本身（在我的SQL Server中）已经完成了并行工作的出色工作。 在这种情况下，单个大工作已经最大化了服务器可以处理的进程数 - 放置更多的工作将无济于事。 你的情况似乎就是这个。

python并行化db查询执行

问题描述

1 个解决方案

解决方案1
0 2019-04-10 11:04:20

python并行化db查询执行

问题描述

1 个解决方案

解决方案1 0 2019-04-10 11:04:20

解决方案1
0 2019-04-10 11:04:20