cost 205 ms
通過 Slurm 作業調度程序請求節點上的最大線程數和核心數

[英]Request maximum number of threads & cores on node via Slurm job scheduler

我有一個異構集群,包含 14 核或 16 核 CPU(28 或 32 線程)。 我使用 Slurm 管理作業提交。 一些要求: 使用哪個 CPU 進行計算並不重要。 我不想指定作業應該 go 到哪個 CPU。 作業應消耗 CPU 上的所有可用內核(14 或 16)。 我希望 mpirun 處理線程。 ...

如何在 slurm 中使用不同的數據在不同的節點中運行 a.sh?

[英]How to run a .sh in different nodes using different data in slurm?

我是 Slurm 的初學者,我需要一些幫助來解決以下問題。 我制作了 a.sh,其中,最初,一個 matlab 腳本創建了兩個 arrays(基於參數 i 的值)。 然后,那些 arrays 被 Fortran 程序使用,計算其他 arrays 的數量。 我希望針對 i 的 10 個不同值(在 1 ...

是否可以在 slurm 作業執行后執行后腳本?

[英]Is it possible to execute post-script after slurm job execution?

是否可以告訴slurm它必須在提交的任務完成后執行特定的腳本,例如post-script.py腳本? 不提交新任務,只在登錄節點上運行它就像是... 還是每 N 分鍾檢查一次任務是否完成的唯一選擇? ...

如何使用第 1 列的每個唯一值創建一個 slurm 數組,並將第 2 列中的相應值用作 bash 腳本中的輸入

[英]How to create a slurm array with each unique values of column 1 and use the corresponsing values in column 2 as inputs in a bash script

從表中,我試圖將對應於每個唯一組(第 1 列)的文件名(第 2 列)作為輸入傳遞到使用唯一第 1 列變量創建的 slurm 數組中。 我正在做這樣的事情: 樣品表: ================================ ================================ ...

在 slurm incronjob 上運行 nextflow 的問題

[英]Issue running nextflow on slurm incronjob

我使用 bash 腳本來啟動由 slurm 調度的多個 nextflow 腳本組成的管道。 我可以手動運行 bash 文件,但如果使用同一用戶的 cronjob 運行相同的命令行(即 bash 啟動程序),它將無法工作。 特別是,在第一個 nextflow 的第一個過程中,我收到此錯誤: 如果我然后 ...

如何在SLURM中分配memory?

[英]How to allocate memory in SLURM?

我是 Slurm 的新手。 下面,我要執行一個 Python 文件,它需要 92.3GiB。 我分配了 120GB,但我的代碼仍然返回 memory 錯誤。 submit_venv.sh 使用./submit_venv.sh運行腳本追溯: ...

在 Slurm 下一起使用 OpenMP 和 OpenMPI

[英]Using OpenMP and OpenMPI together under Slurm

我寫了一個 C++ 代碼,它同時使用了 OpenMP 和 OpenMPI。 我想使用(比方說)3 個節點(所以 size_Of_Cluster 應該是 3)並在每個節點中使用 OpenMP 來並行化 for 循環(一個節點中有 24 個核心)。 本質上,我希望將 MPI 等級分配給節點。 我編寫的 ...

向 slurm 數組添加異常

[英]Add exception to slurm array

我有以下slurm腳本: 通常我會使用單個 bash 命令運行另一個slurm腳本,以使用選項#SBATCH --dependency=afterok:job_id(first job)刪除一些文件。 我想要做的是將它包含在上面的腳本中,但是當我添加行rm file1 file2 file3時,它顯 ...

2023-01-06 11:30:11   1   40    bash / slurm  
有沒有辦法通過“srun、sbatch 或 salloc”來增加 memory 分配給正在運行的作業?

[英]Is there a way to increase memory allocation for running jobs through "srun, sbatch, or salloc"?

當我想執行我的作業時,我使用 srun、salloc 或 sbatch 和 slurm。 memory第一份工作不知道應該分配多少。 運行中有時memory分配不足,想防止'out of memory exit' 有沒有辦法增加通過 slurm 運行的作業的 memory 分配? ...

2022-12-28 02:02:26   2   25    slurm  
vim 對其他進程正在使用的文件的影響

[英]Impact of vim on a file being used by an other process

我在計算集群上為我的工作使用 SLURM。 我想在作業運行時在登錄節點中使用 vim 檢查我的 output 文件,並且不會進行任何編輯。 這會對我正在進行的 SLURM 作業產生任何影響嗎? ...

SLURM,在 8 核 CPU 上運行的作業

[英]SLURM, jobs running on 8 core CPU

先生: 我一直在使用由 slurm 管理的小型集群。 (Debian,測試) 我發現只有 4 個作業在一個 8 核 CPU 的節點上運行。 我嘗試過使用或不--threads-per-core=1 、 --cpus-per-task=1和其他幾個選項。 該節點具有 Core i7 8 核。 ls ...

2022-12-23 05:49:54   1   16    jobs / slurm  
在 SLURM [bash] 中將數字作業分配為變量

[英]Assign number jobs as variable in SLURM [bash]

我已經為陣列啟動編寫了一個sbatch腳本,我想自動添加作業數量(無需在腳本中手動指定)。 我在想也許是一個變量,像這樣: sbatch myscript.sbs --n_jobs=30 (或sbatch --n_jobs=30 myscript.sbs ) ...這將是理想的腳本(當然,它不起 ...

用於並行執行獨立任務的 Slurm 腳本不起作用

[英]Slurm script for parallel execution of independent tasks not working

我在使用 Slurm 腳本時遇到問題,如下所示: 該腳本應該提交幾個相互獨立且應該並行運行的任務。 但是,將作業提交給調度程序時,任務不會啟動,作業會立即刪除。 日志文件不顯示單個條目。 如果有人能告訴我,這有什么問題,那將不勝感激。 最好的祝福我嘗試在沒有 --exclusive 的情況下運行腳本 ...

對 slurm 有疑問。 錯誤:“沒有這樣的文件或目錄”

[英]Having issue with slurm. error: "no such file or directory"

我正在嘗試使用 sbatch <script.sh> 運行一個 slurm 腳本。 然而,盡管多次檢查我的路徑變量,我還是收到一個文件未找到的錯誤。 此外,我認為這與我的 go 環境有關,但我也收到“無法導入絕對路徑”錯誤。 我不確定是什么問題。 我附上了我的 slurm 配置文件以及 ...

在分配給其他節點之前,無法讓 slurm sbatch 作業數組將作業分配給核心

[英]Having trouble getting slurm sbatch job arrays to assign jobs to cores before assigning to additional nodes

我有許多作業需要單核才能運行。 我使用的集群有 5 個節點,每個節點有 96 個核心。 當我使用 slurm 提交作業時,作業總是分配給多個節點,如果超過 5 個(即節點數),它們往往會按順序運行,而不是在每個節點上同時運行。 當我限制節點時觀察到相同的行為; 順序的,不是並發的。 配置設置為“co ...

從 slurm 作業數組中獲取哪個任務失敗

[英]Get which task from slurm job array has failed

我已經運行了一個 slurm 作業數組 (9714509),但它失敗並顯示Mixed, ExitCode [0-1] 。 使用此處的代碼,我可以看到只有一項工作失敗了: 有沒有辦法獲取失敗的任務編號,因為檢查單個日志文件將花費太長時間。 ...

2022-12-09 15:54:25   1   19    slurm  
檢查正在運行的作業的 sbatch 腳本

[英]Check sbatch script of running job

從 sbatch 腳本運行 slurm 作業時,是否有一個命令可以讓我查看我用來啟動該作業的 sbatch 腳本中的內容? 例如 sacct 告訴我我在 SLURM_JOB_ID.3 上,我想看看總共會有多少個作業步驟。 我正在尋找一個獲取作業 ID 並打印它正在運行的 sbatch 腳本的命令。 ...

2022-12-08 08:58:35   1   26    slurm / hpc  
SLURM 作業因 sbatch 而失敗,但因 srun 而成功

[英]SLURM job failing with sbatch, successful with srun

一位研究人員正在向我們的集群提交一個作業,該作業在使用 sbatch 運行時失敗,但在使用 srun 運行時成功。 關於為什么會這樣的任何想法? 我在下面包含了錯誤消息和 slurm 腳本: 錯誤信息: 基於該錯誤,我的第一個想法是它與 slurm 運行的代碼有關,而不是與 slurm 函數本身有關 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM