본문 바로가기
[MLOPs]

Slurm | 게시글 목록

by 하우론 2024. 1. 17.

링크가 없는 건 예정 글이다.
 
Sys-admin 하다 보면 뭔가 봉사 하는 느낌이 들어서 재밌다.

 

User

 

Admin

  • 하드웨어 구성하기
  • Slurm-admin | Deepops로 Slurm 설치하기
  • slurm.conf로 configure 하기
  • Prolog/epilog 그리고 로깅
  • job_submit.lua로 로깅하기
  • Accounting으로 유저 QoS 관리하기
  • Job preemption, priority
  • Rootless docker, singularity
  • Lmod, Spack으로 라이브러리 여러 버전(특히 CUDA) 쉽게 관리하기
  • pyslurm
  • Slurm REST API

  • slrumdbd 셋업
  • scontrol
  • sacctmgr

Notes

위 게시글들에 사용한 요소들의 버전이다.

  • Ubuntu: 20.04 (LTS)
  • Slurm: 22.05.11
  • Deepops: 22.08 (일단 버전을 써놓긴 했으나 무조건 최신 버전을 쓰는 것을 추천한다)
  • Ansible: 2.11.12
    • gcc: 9.4.0
    • Python: 3.8.10
    • jinja: 2.11.3
  • Spack: 0.18.1
  • Lua: 6.6

 


필요하신 내용은 요청 주시면 priority를 최대한 올려서 작업하겠습니다.