[英]Python, how to implement parallel process
在Python中,如果数据库很大,那么简单的选择查询将花费大量时间。 我有一个包含4,700,000条记录的表,如果我使用SELECT * FROM MY_TABLE
来获取表中的所有数据,则将花费18分钟。 通过设置chunk_size
并实现并行查询,可以节省时间。
所以,我的代码是:
import os
import time
import multiprocessing
import pandas as pd
import MySQLdb as mysql
if __name__ == '__main__':
conn = mysql.connect(host='192.168.0.114',
user='root',
passwd='fit123456',
db='A_stock_day',
charset='utf8'
)
limit = 100000
offset = 0
dfs = []
print 'start.....'
_s = time.time()
while True:
_query = 'SELECT * FROM A_stock_basic LIMIT %d OFFSET %d' %\
(limit, offset)
dfs.append(pd.read_sql(_query, conn))
offset += limit
if len(dfs[-1]) < limit:
break
_e = time.time()
print 'Time: ', _e - _s
full_df = pd.concat(dfs)
但是,仍然需要大约10分钟。 如何并行化它,让多个线程同时运行并使执行时间减少到一个线程的执行时间? 我在这里有多处理代码:
def select(info):
""""""
limit, offset, conn = info[0], info[1], info[2]
_query = 'SELECT * FROM A_stock_basic LIMIT %d OFFSET %d' %\
(limit, offset)
s = time.time()
info[3].append(pd.read_sql(_query, conn))
e = time.time()
print 'time: ', e - s, ' pid: ', os.getpid()
if __name__ == '__main__':
conn = mysql.connect(host='192.168.0.114',
user='root',
passwd='fit123456',
db='A_stock_day',
charset='utf8'
)
dfs, p, pool= [], [], multiprocessing.Pool(7)
info = [(1000000, 0, conn, dfs),
(1000000, 1000000, conn, dfs),
(1000000, 2000000, conn, dfs),
(1000000, 3000000, conn, dfs),
(1000000, 4000000, conn, dfs),
(1000000, 5000000, conn, dfs),
(1000000, 6000000, conn, dfs),
]
for _i, _v in enumerate(info):
print 'start....', _i
_p = multiprocessing.Process(target=select, args=(_v, ))
_p.start()
_p.join()
print 'The End'
如您所见,尽管它启动了多处理,但一次只有一个进程读取数据库。 因此,这只是多处理,而不是并行处理。
如何实现并行多处理以节省时间? 谢谢。
在你的循环中
for _i, _v in enumerate(info):
print 'start....', _i
_p = multiprocessing.Process(target=select, args=(_v, ))
_p.start()
_p.join()
您正在启动流程,然后立即加入它们。 这意味着您的主进程将永远不会启动一个以上的子进程(因为一旦启动了一个子进程,它将在继续之前等待该子进程完成)。
解决此问题的最直接方法是:
processes = []
for _i, _v in enumerate(info):
print 'start....', _i
_p = multiprocessing.Process(target=select, args=(_v, ))
_p.start()
processes.append(_p)
for _p in processes:
_p.join()
但是,更好的方法是使用已经创建的pool
对象。 为此,代码应类似于
pool.apply(select, info)
但是,我认为使select
返回它获取的数据(而不是将其附加到数组)并调用pool.map
而不是pool.apply
会更快乐。 这应该有助于避免某些竞争条件和共享内存问题,否则我会遇到这种情况。
您可以在https://docs.python.org/2/library/multiprocessing.html上了解有关这些功能的更多信息,尽管我希望您已经来过那里。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.