簡體   English   中英

HTCondor - 可分區插槽不起作用

[英]HTCondor - Partitionable slot not working

我正在按照 HTCondor 網站中關於高吞吐量計算中心配置簡介的教程來設置一個可分區插槽 在我運行任何配置之前

condor_status

並得到以下輸出

我通過在文件末尾添加以下行來更新/etc/condor/config.d中的文件00-minicondor

NUM_SLOTS = 1 
NUM_SLOTS_TYPE_1 = 1
SLOT_TYPE_1 = cpus=4
SLOT_TYPE_1_PARTITIONABLE = TRUE

並重新配置

 sudo condor_reconfig

現在有了

condor_status

我按預期得到了這個輸出 現在,我運行以下命令來檢查一切是否正常

condor_status -af Name Slotype Cpus

並找到我所期望的slot1@ip-172-31-54-214.ec2.internal undefined 1而不是slot1@ip-172-31-54-214.ec2.internal Partitionable 4 61295 此外,當我嘗試完成一項要求超過 1 個 cpu的工作時,它並沒有為它分配空間(它會永遠等待)。

我不知道我在安裝過程中是否犯了一些錯誤或可能發生什么。 我真的很感激任何幫助!

額外信息:如果有任何幫助,已經使用命令安裝了 HTCondor

curl -fsSL https://get.htcondor.org | sudo /bin/bash -s – –no-dry-run

在舊p2.xlarge實例(它有 4 個核心)上運行的Ubuntu 18.04上。

更新:重新啟動整個過程后,它似乎正在工作。 我現在可以發送具有不同 CPU 請求的作業,它會正確啟動它們。

我要說的唯一問題是內存分配沒有正確顯示,例如:

在這種情況下

但實際上它為作業分配了足夠的內存(在本例中約為 12 GB)。

如果我再次運行 condor_status -af Name Slotype Cpus 我仍然會得到一些我不應該得到的東西

未定義的問題

但至少它顯示了正確的 CPU 數量(即使它只是說未定義)。

當作業空閑時condor_q -better的輸出是什么?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM