대시보드
상세 대시보드(일반적으로 메인 클러스터 모니터링 페이지의 “대시보드 열기” 버튼을 통해 접근)는 클러스터 성능 및 시간에 따른 리소스 사용량에 대한 심층적인 시각화를 제공합니다.
CPU 개요
Section titled “CPU 개요”
- CPU 사용량 (게이지 & 파이 차트): 클러스터 전체의 현재 CPU 사용률 백분율 및 할당된 코어와 유휴 코어의 비율을 보여줍니다.
- CPU 총계 / 할당됨 / 유휴: 각 상태에 있는 코어의 정확한 수를 표시합니다.
- 사용자별 CPU 사용량 (게이지 & 그래프): 각 사용자에게 귀속된 CPU 사용량을 추적합니다.
- 파티션별 CPU 사용량 (게이지 & 그래프): 각 Slurm 파티션 내의 CPU 사용량을 모니터링합니다.
- 파티션별 할당된 CPU: 시간에 따른 각 파티션에 할당된 코어 수를 보여줍니다.
클러스터 노드 & SLURM 작업
Section titled “클러스터 노드 & SLURM 작업”
- 클러스터 노드: 시간에 따른 노드 상태(할당됨, 혼합됨, 유휴, 전체)를 추적합니다.
- Fail/Down/Drain/Err 노드: 문제 상태에 있는 노드 수를 모니터링합니다.
- SLURM 작업: 시간에 따른 실행 중, 대기 중, 완료된 작업 수를 보여줍니다.
- Fail/Susp/Canc/Preempt/Timeout 작업: 다양한 비완료 상태로 종료된 작업 수를 추적합니다.
노드별 CPU & 작업 사용량
Section titled “노드별 CPU & 작업 사용량”
- 노드별 CPU 사용량 (막대 & 게이지): 각 개별 노드의 현재 CPU 사용량을 표시합니다.
- 노드별 할당된 CPU (그래프): 각 노드의 CPU 할당 기록을 보여줍니다.
- 작업 큐 (그래프): 시간에 따른 실행 중, 대기 중, 완료된 작업 수를 추적합니다(클러스터 전체).
- 실행 중 / 대기 중 / 완료된 작업 (숫자): 각 작업 상태의 현재 개수를 표시합니다.
CPU 코어 할당 & 사용자 작업
Section titled “CPU 코어 할당 & 사용자 작업”
- 사용자별 실행 중인 작업: 각 사용자의 현재 실행 중인 작업 수를 보여줍니다.
- CPU 코어 할당 (그래프): 시간에 따른 총 CPU 코어 수와 할당된 코어 수를 추적합니다.
- 파티션별 할당된 CPU (그래프): 파티션별 코어 할당 기록을 보여줍니다.
- 파티션별 유휴 CPU (그래프): 각 파티션 내의 유휴 코어 수를 시간에 따라 추적합니다.
공정 공유 & 계정 사용량
Section titled “공정 공유 & 계정 사용량”
- 계정별 공정 공유: 다양한 계정에 대한 Slurm 공정 공유 값을 모니터링합니다.
- 계정별 실행 중인 작업: 각 계정과 연관된 실행 중인 작업 수를 추적합니다.
- 계정별 대기 중인 작업: 계정별 대기 중인 작업 수를 보여줍니다(“데이터 없음”으로 표시될 수 있음).
- (사용자 및 계정 섹션): (비어 있거나 설정에 따라 사용자별 데이터가 표시될 수 있음).
사용자 & SLURM 스케줄러 상세 정보
Section titled “사용자 & SLURM 스케줄러 상세 정보”
- 사용자별 실행 중/대기 중인 작업: (선택한 사용자가 해당 상태의 작업이 없으면 “데이터 없음”으로 표시될 수 있음).
- 계정/사용자별 활용 CPU: 계정 또는 사용자별 CPU 코어 사용량을 추적합니다.
- SLURM 스케줄러 상세 정보: 스레드 수, 에이전트 큐 크기, DBD 에이전트 큐 길이와 같은 내부 Slurm 스케줄러 메트릭을 표시합니다.
SLURM 스케줄러 주기 & 백필
Section titled “SLURM 스케줄러 주기 & 백필”
- SLURM 스케줄러 주기 (그래프): 시간에 따른 메인 스케줄러 주기의 길이를 보여줍니다.
- 백필 스케줄러 주기 (그래프): 백필 스케줄러 주기의 길이를 추적합니다.
- 스케줄러 백필 깊이 평균: 백필 스케줄러가 고려하는 평균 깊이를 모니터링합니다.
- 총 백필된 작업 (그래프 & 게이지): 마지막 Slurm 시작 또는 통계 주기 재설정 이후 백필 스케줄러에 의해 시작된 작업 수를 추적합니다.