簡體   English   中英

在 AWS Sagemaker 中訓練 keras model

[英]Training keras model in AWS Sagemaker

我的機器上有 keras 訓練腳本。 我正在嘗試在 AWS sagemaker 容器上運行我的腳本。 為此,我使用了以下代碼。

from sagemaker.tensorflow import TensorFlow
est = TensorFlow(
    entry_point="caller.py",
    source_dir="./",
    role='role_arn',
    framework_version="2.3.1",
    py_version="py37",
    instance_type='ml.m5.large',
    instance_count=1,
    hyperparameters={'batch': 8, 'epochs': 10},
)

est.fit()

這里caller.py是我的入口點。 執行上述代碼后,我得到keras is not installed 這是堆棧跟蹤。

Traceback (most recent call last):
  File "executor.py", line 14, in <module>
    est.fit()
  File "/home/thasin/Documents/python/venv/lib/python3.8/site-packages/sagemaker/estimator.py", line 682, in fit
    self.latest_training_job.wait(logs=logs)
  File "/home/thasin/Documents/python/venv/lib/python3.8/site-packages/sagemaker/estimator.py", line 1625, in wait
    self.sagemaker_session.logs_for_job(self.job_name, wait=True, log_type=logs)
  File "/home/thasin/Documents/python/venv/lib/python3.8/site-packages/sagemaker/session.py", line 3681, in logs_for_job
    self._check_job_status(job_name, description, "TrainingJobStatus")
  File "/home/thasin/Documents/python/venv/lib/python3.8/site-packages/sagemaker/session.py", line 3240, in _check_job_status
    raise exceptions.UnexpectedStatusException(
sagemaker.exceptions.UnexpectedStatusException: Error for Training job tensorflow-training-2021-06-09-07-14-01-778: Failed. Reason: AlgorithmError: ExecuteUserScriptError:
Command "/usr/local/bin/python3.7 caller.py --batch 4 --epochs 10

ModuleNotFoundError: No module named 'keras'

  1. 哪個實例預裝了keras?
  2. 有什么方法可以將 python package 安裝到 AWS 容器中? 或該問題的任何解決方法?

注意:我已經嘗試將自己的容器上傳到 ECR 並成功運行我的代碼。 我正在尋找 AWS 現有的容器功能。

Keras 現在是 tensorflow 的一部分,因此您只需重新格式化代碼以使用tf.keras而不是keras 由於 tensorflow 的 2.3.0 版本是同步的,所以應該沒那么難。 你的容器就是這個,從包列表中可以看出,沒有Keras 如果您想擴展預構建的容器,您可以查看此處,但我不建議在此特定用例中使用,因為為了將來的代碼可維護性,您應該為 tf.keras 提供tf.keras

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM