디스크 정보
# nvme list
Node Generic SN Model Namespace Usage Format FW Rev
--------------------- --------------------- -------------------- ---------------------------------------- ---------- -------------------------- ---------------- --------
/dev/nvme0n1 /dev/ng0n1 S63GNF0W608232 SAMSUNG MZVL21T0HCLR-00B07 0x1 314.95 GB / 1.02 TB 512 B + 0 B GXA7402Q
Retrieve SMART Log, show it
# nvme smart-log /dev/nvme0n1p2
Smart Log for NVME device:nvme0n1p2 namespace-id:ffffffff
critical_warning : 0
temperature : 57 °C (330 K)
available_spare : 100%
available_spare_threshold : 10%
percentage_used : 4%
endurance group critical warning summary: 0
Data Units Read : 17874184 (9.15 TB)
Data Units Written : 44628483 (22.85 TB)
host_read_commands : 272704323
host_write_commands : 885185260
controller_busy_time : 4796
power_cycles : 7
power_on_hours : 837
unsafe_shutdowns : 3
media_errors : 0
num_err_log_entries : 0
Warning Temperature Time : 0
Critical Composite Temperature Time : 0
Temperature Sensor 1 : 57 °C (330 K)
Temperature Sensor 2 : 66 °C (339 K)
Thermal Management T1 Trans Count : 0
Thermal Management T2 Trans Count : 0
Thermal Management T1 Total Time : 0
Thermal Management T2 Total Time : 0
Critical Warning / nagios 모니터링
디스크의 주요 상태 경고를 나타냅니다. 값이 0이 아니면 문제가 있는 상태입니다.
각 비트는 특정 경고 조건을 나타냅니다.
- 비트 0: 온도 이상
- 비트 1: NAND 메모리의 신뢰도 저하
- 비트 2: 유지보수 필요
- 비트 3: 미디어 읽기/쓰기 보호 상태
- 비트 4: NAND 메모리 공간 부족
- 비트 5-7: 예약
available_spare
디바이스에 남아있는 사용 가능한 여유 공간 비율 / 배드블럭이 발생했을때 교체해주기 위한 스페어 영역
벤더사마다 다르지만 over Provisioning 영역일 수 있다. 10% 이하로 떨어지면 bad block 혹은 dead cell 이 많아졌다는것으로 장애유의
percentage_used
Erase(지우기)/Program(쓰기) 사이클이 수없이 반복되면 절연막이 Wear-out(더이상 사용하지 못하는 셀)되며 NAND MAX Erase/Program 수명 대비 몇 % 사용 한 것인지 표시해주는 항목
사용량에 비럐하여 증가한다.
100% 이상되면 수명이 거의 다 했다고 보면 된다.
0~100% 사이는 퍼포먼스에 영향을 주지 않는다.
0이면 새제품 / 100%이상은 설계 수명이 End
80% 이상 소진된 디스크는 교체를 고려
controller_busy_time
컨트롤러의 바쁨정도를 1분 단위로 표시
nvme dirty 상태가 되거나 IO가 빠르게 처리되지 않을때 해당 지표를 기준으로 정상일때와 비교하는 기준
unsafe_shutdowns
비정상적인 종료가 있던 횟수.
리부팅 또는 셧다운시 NAMD에 전기적인 신호에 문제가 될 수 있고 일부 벤더에서는 안전모드(NAND 보호를 위한 Rock) 로 빠질수 있다.
media_errors & num_err_log_entries / nagios 모니터링
배드섹터 감지 횟수
디바이스의 신뢰가 낮아짐을 의미
카더라...
Temperature Sensor 1 컨트롤러 온도 (NVMe 디스크의 성능, 동작상태)
Temperature Sensor 2 NAND 플래시 메모리 근처 온도 (데이터 무결성, 디스크 수명)