簡體 English 中英

TPOT 訓練時間太長

[英]TPOT taking too long to train

原文 2021-06-04 17:32:27 2 1 python/ tpot

我第一次嘗試在大約 7000 行的數據集上使用 tpot，當嘗試在占整個數據集 25% 的訓練數據集上訓練 tpot 時，tpot 花費的時間太長。 我在 google colab 上運行代碼大約 45 分鍾，優化進度仍為 4%。 我一直在嘗試使用以下示例： http://epistasislab.github.io/tpot/examples/ 。 tpot 需要這么長時間是典型的嗎，因為到目前為止我認為它甚至不值得嘗試使用它

1 個解決方案

TPOT 可能需要很長時間，具體取決於您擁有的數據集。 您必須考慮 TPOT 正在做什么：TPOT 正在評估數千個分析管道並在后台在您的數據集上擬合數千個 ML 模型，如果您有一個大數據集，那么所有這些擬合可能需要很長時間——尤其是如果您在功能較弱的計算機上運行它。

如果您想要更快的結果，您有幾個選擇：

使用“TPOT light”配置，使用更簡單的模型，運行速度更快。
將n_jobs參數設置為-1或大於1的數字，這將允許 TPOT 並行評估管道。 如果您有一台多核機器， -1將使用所有可用的內核並顯着加快速度。
使用subsample參數對數據進行二次采樣。 默認值為 1.0，對應於使用 100% 的訓練數據。 您可以對較低百分比的數據進行二次抽樣，TPOT 將運行得更快。