Python，如何實現並行過程

Question

在Python中，如果數據庫很大，那么簡單的選擇查詢將花費大量時間。 我有一個包含4,700,000條記錄的表，如果我使用SELECT * FROM MY_TABLE來獲取表中的所有數據，則將花費18分鍾。 通過設置chunk_size並實現並行查詢，可以節省時間。

所以，我的代碼是：

import os
import time
import multiprocessing
import pandas as pd
import MySQLdb as mysql

if __name__ == '__main__':
    conn = mysql.connect(host='192.168.0.114',
                         user='root',
                         passwd='fit123456',
                         db='A_stock_day',
                         charset='utf8'
                        )
    limit = 100000
    offset = 0
    dfs = []
    print 'start.....'
    _s = time.time()
    while True:
        _query = 'SELECT * FROM A_stock_basic LIMIT %d OFFSET %d' %\
                (limit, offset)
        dfs.append(pd.read_sql(_query, conn))
        offset += limit
        if len(dfs[-1]) < limit:
            break
    _e = time.time()
    print 'Time: ', _e - _s
    full_df = pd.concat(dfs)

但是，仍然需要大約10分鍾。 如何並行化它，讓多個線程同時運行並使執行時間減少到一個線程的執行時間？ 我在這里有多處理代碼：

def select(info):
    """"""
    limit, offset, conn = info[0], info[1], info[2]
    _query = 'SELECT * FROM A_stock_basic LIMIT %d OFFSET %d' %\
            (limit, offset)
    s = time.time()
    info[3].append(pd.read_sql(_query, conn))
    e = time.time()
    print 'time: ', e - s, ' pid: ', os.getpid()

if __name__ == '__main__':
    conn = mysql.connect(host='192.168.0.114',
                         user='root',
                         passwd='fit123456',
                         db='A_stock_day',
                         charset='utf8'
                        )
    dfs, p, pool= [], [], multiprocessing.Pool(7)
    info = [(1000000, 0, conn, dfs),
            (1000000, 1000000, conn, dfs),
            (1000000, 2000000, conn, dfs),
            (1000000, 3000000, conn, dfs),
            (1000000, 4000000, conn, dfs),
            (1000000, 5000000, conn, dfs),
            (1000000, 6000000, conn, dfs),
           ]
    for _i, _v in enumerate(info):
        print 'start....', _i
        _p = multiprocessing.Process(target=select, args=(_v, ))
        _p.start()
        _p.join()
    print 'The End'

如您所見，盡管它啟動了多處理，但一次只有一個進程讀取數據庫。 因此，這只是多處理，而不是並行處理。

如何實現並行多處理以節省時間？ 謝謝。

Answer 1

在你的循環中

for _i, _v in enumerate(info):
    print 'start....', _i
    _p = multiprocessing.Process(target=select, args=(_v, ))
    _p.start()
    _p.join()

您正在啟動流程，然后立即加入它們。 這意味着您的主進程將永遠不會啟動一個以上的子進程（因為一旦啟動了一個子進程，它將在繼續之前等待該子進程完成）。

解決此問題的最直接方法是：

processes = []
for _i, _v in enumerate(info):
    print 'start....', _i
    _p = multiprocessing.Process(target=select, args=(_v, ))
    _p.start()
    processes.append(_p)
for _p in processes:
    _p.join()

但是，更好的方法是使用已經創建的pool對象。 為此，代碼應類似於

pool.apply(select, info)

但是，我認為使select返回它獲取的數據（而不是將其附加到數組）並調用pool.map而不是pool.apply會更快樂。 這應該有助於避免某些競爭條件和共享內存問題，否則我會遇到這種情況。

您可以在https://docs.python.org/2/library/multiprocessing.html上了解有關這些功能的更多信息，盡管我希望您已經來過那里。

Python，如何實現並行過程

問題描述

1 個解決方案

解決方案1
2 已采納 2016-03-16 07:22:40

Python，如何實現並行過程

問題描述

1 個解決方案

解決方案1 2 已采納 2016-03-16 07:22:40

解決方案1
2 已采納 2016-03-16 07:22:40