링크가 없는 건 예정 글이다.
Sys-admin 하다 보면 뭔가 봉사 하는 느낌이 들어서 재밌다.
User
- Slurm-user | Slurm이란?
- Slurm-user | Slurm 사용법: srun, sbatch로 리소스 할당 받고 Batch Job 제출하기
- squeue, sinfo 등으로 내 job 모니터링 하기
- Job array
- srun, sbatch 멋있게 쓰기
- submitit
- job dependency 활용해서 job들 자동으로 순서대로 돌아가게 하기
- scontrol로 job update 하기
- singularity 기반으로 docker 컨테이너 sudo 없이 돌리기
Admin
- 하드웨어 구성하기
- Slurm-admin | Deepops로 Slurm 설치하기
- slurm.conf로 configure 하기
- Prolog/epilog 그리고 로깅
- job_submit.lua로 로깅하기
- Accounting으로 유저 QoS 관리하기
- Job preemption, priority
- Rootless docker, singularity
- Lmod, Spack으로 라이브러리 여러 버전(특히 CUDA) 쉽게 관리하기
- pyslurm
- Slurm REST API
- slrumdbd 셋업
- scontrol
- sacctmgr
Notes
위 게시글들에 사용한 요소들의 버전이다.
- Ubuntu: 20.04 (LTS)
- Slurm: 22.05.11
- Deepops: 22.08 (일단 버전을 써놓긴 했으나 무조건 최신 버전을 쓰는 것을 추천한다)
- Ansible: 2.11.12
- gcc: 9.4.0
- Python: 3.8.10
- jinja: 2.11.3
- Spack: 0.18.1
- Lua: 6.6
필요하신 내용은 요청 주시면 priority를 최대한 올려서 작업하겠습니다. |