본문 바로가기

[MLOPs]4

Slurm-admin | Deepops로 Slurm 설치하기 (작성중) 개요Slurm을 설치한다는 것은모든 노드에 munged(MUNGE Uid 'N' Gid Emporium Daemon; GNU 마냥 recursive 약어이다) 설치마스터 노드에 slurmctld(Slurm Controller Daemon) 설치 및 가동컴퓨팅 노드들에 slurmd(Slurm Daemon) 설치[Optional] Accounting을 위해 마스터 노드(또는 별도의 노드)에 slurmdbd(Slurm DB Daemon) 설치slurm.conf, gres.conf(, cgroup.conf, slurmdbd.conf)의 변수를 조정하여 자원 분배 방식 조정prolog, epilog 등을 설정해 job 시작, 끝에 노드 설정 변경 자동화를 하겠다는 것이다. 하지만 slurm만 설치하는 것으로 클러.. 2024. 1. 18.
Slurm | 게시글 목록 링크가 없는 건 예정 글이다. Sys-admin 하다 보면 뭔가 봉사 하는 느낌이 들어서 재밌다. User Slurm-user | Slurm이란? Slurm-user | Slurm 사용법: srun, sbatch로 리소스 할당 받고 Batch Job 제출하기 squeue, sinfo 등으로 내 job 모니터링 하기 Job array srun, sbatch 멋있게 쓰기 submitit job dependency 활용해서 job들 자동으로 순서대로 돌아가게 하기 scontrol로 job update 하기 singularity 기반으로 docker 컨테이너 sudo 없이 돌리기 Admin 하드웨어 구성하기 Slurm-admin | Deepops로 Slurm 설치하기 slurm.conf로 configure 하기.. 2024. 1. 17.
Slurm-user | Slurm 사용법: srun, sbatch로 리소스 할당 받고 Batch Job 제출하기 빠른 시작 / TL;DR 준비물 ssh로 master 서버에 접속이 돼있어야 한다 자신의 account, partition, qos 이름들을 알아야 한다. 관리자한테 물어보는 게 제일 낫다. 아래 커맨드로 알아낼 수도 있다. Accounting을 사용하지 않는 클러스터라면 아래 정보가 안 뜨거나 비어있을 수도 있다. sacctmgr show assoc tree format=cluster,acct,user,qos,part user=$USER 커맨드 일단 `srun`으로 Interactive Job부터 잡아보기 빠른 커맨드 srun -p [내 파티션] --pty bash 정석 커맨드 srun -p [사용할 파티션] -q [사용할 QoS] -A [사용할 account] --pty [사용할 쉘] 적절한 리소스도.. 2023. 3. 24.
Slurm-user | Slurm이란? 빠르게 시작하기 Quick Start Guide Slurm Workload Manager - Quick Start User Guide Quick Start User Guide Overview Slurm is an open source, fault-tolerant, and highly scalable cluster management and job scheduling system for large and small Linux clusters. Slurm requires no kernel modifications for its operation and is relatively self-co slurm.schedmd.com 저자의 상세한 설명이 쓰여있다. 개요 Slurm은 리눅스 기반 클러스터에서 활용되는 스.. 2022. 8. 20.