繁体   English   中英

Kubeflow Pipelines 可以并行运行 GPU 组件吗?

[英]Can Kubeflow Pipelines run GPU components in parallel?

我正在尝试构建一个 kubeflow 管道,在其中并行运行两个组件(具有 GPU 约束)。 这似乎不是问题,但每次我尝试时,一个组件都会卡在“待处理”状态,直到另一个组件完成。

示例运行

我正在测试的两个组件是带有 GPU 约束的简单while循环:

while_op1 = while_loop_op(image_name='tensorflow/tensorflow:1.15.2-py3')
while_op1.name = 'while-1-gpu'
while_op1.set_security_context(V1SecurityContext(privileged=True))
while_op1.apply(gcp.use_gcp_secret('user-gcp-sa'))
while_op1.add_pvolumes({pv_base_path: _volume_op.volume})
while_op1.add_node_selector_constraint('cloud.google.com/gke-accelerator', 'nvidia-tesla-p100')
while_op1.set_gpu_limit(1)
while_op1.after(init_op)

其中while_loop_op

import kfp.components as comp
def while_loop_op(image_name):
  def while_loop():
    import time
    max_count = 300
    count = 0
    while True:
      if count >= max_count:
        print('Done.')
        break
      time.sleep(10)
      count += 10
      print("{} seconds have passed...".format(count))
  op = comp.func_to_container_op(while_loop, base_image=image_name)
  return op()

该问题可能与您对卷的使用有关。 您是否尝试过使用更受支持的数据传递机制?

以这条管道为例: https://github.com/kubeflow/pipelines/blob/091316b8bf3790e14e2418843ff67a3072cfadc0/components/XGBoost/_samples/sample_pipeline.py

将与 GPU 相关的自定义应用于训练器:

some_task.add_node_selector_constraint('cloud.google.com/gke-accelerator', 'nvidia-tesla-p100')
some_task.set_gpu_limit(1)

将训练器和预测器放在for _ in range(10):循环中,这样您就有 10 个并行副本。

检查训练器是否并行运行。

PS最好在官方repo中创建issues: https://github.com/kubeflow/pipelines/issues

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM