금요일 밤, 디스크가 죽는다면?
"서버 장애는 반드시 금요일 밤이나 휴가 가는 날 터진다"는 머피의 법칙이 있습니다
RAID 5나 RAID 6로 디스크를 묶어놨으니 안전하다고 안심하시나요? 만약 금요일 밤에 디스크 하나가 고장 났다고 칩시다.
엔지니어가 출근하는 월요일 아침까지 서버는 "위태로운 상태(Degraded)"로 돌아가야 합니다.
그런데 하필 그 주말 사이에 또 다른 디스크가 하나 더 고장 난다면? 바로 그 순간 데이터는 영원히 요단강을 건너게 됩니다.
이때 서버실에 아무도 없어도, 자동으로 튀어나와서 구멍 난 곳을 메꿔주는 든든한 대기 선수가 있습니다.
바로 "핫 스페어(Hot Spare)"입니다. 오늘은 RAID 구성의 마지막 안전핀, 핫 스페어에 대해 알아보겠습니다.

1. 축구팀의 벤치 멤버 (대기 선수)
핫 스페어를 가장 쉽게 이해하려면 "축구 경기"를 떠올리면 됩니다.
- RAID 그룹 (선발 선수 11명): 그라운드에서 실제로 뛰고 있는 디스크들입니다. 열심히 데이터를 읽고 쓰며 경기를 뜁니다.
- 디스크 고장 (부상 발생): 경기 도중 주전 선수 한 명이 부상을 당해 쓰러졌습니다. 경기를 계속하려면 자리를 채워야겠죠?
- 핫 스페어 (벤치 멤버): 유니폼을 입고 벤치에 앉아 있던 대기 선수입니다. 감독(RAID 컨트롤러)이 "들어가!"라고 신호를 보내면, 그 즉시 그라운드로 뛰어들어가 부상당한 선수의 빈자리를 채웁니다.
중요한 건 이 교체가 "자동으로" 이루어진다는 점입니다.
감독이 관중석에서 자고 있어도, 시스템이 알아서 대기 선수를 투입해 경기가 중단되지 않게 만드는 것이죠.

2. 작동 원리 및 구조: 당신이 잠든 사이에 일어나는 일
핫 스페어가 실제로 어떻게 작동해서 데이터를 살려내는지 단계별(Step-by-Step)로 살펴보겠습니다.
- 대기 상태 (Standby): 핫 스페어 디스크는 서버에 꽂혀 있고 전원도 들어와 있지만, 아무런 데이터도 저장하지 않고 조용히 대기합니다. (벤치에서 몸 풀기)
- 장애 감지 (Failure Detection): RAID 컨트롤러가 "어? 3번 디스크가 응답이 없네? 죽었구나."라고 판단합니다. RAID 상태가 Optimal(정상)에서 Degraded(위험)로 바뀝니다.
- 자동 투입 (Activation): 컨트롤러는 즉시 핫 스페어 디스크를 깨워서 RAID 그룹에 합류시킵니다.
- 리빌딩 (Rebuilding): 살아있는 나머지 디스크들의 정보(Parity)를 긁어모아서, 죽은 3번 디스크가 가지고 있던 데이터를 계산해 핫 스페어 디스크에 다시 씁니다. 이 과정을 "리빌딩"이라고 합니다.
- 정상화: 리빌딩이 끝나면 핫 스페어는 이제 정식 멤버가 됩니다. 서버는 다시 안전한 상태로 돌아옵니다.

3. 비교 분석: 핫 스페어 vs 콜드 스페어
면접이나 실무에서 "스페어 디스크"라고 하면 이 두 가지를 구분해야 합니다.
| 비교 항목 | 핫 스페어 (Hot Spare) | 콜드 스페어 (Cold Spare) |
| 위치 | 서버 내부에 장착됨 | 서버실 선반이나 창고에 보관 |
| 전원 상태 | ON (항상 켜져 있음) | OFF (박스에 포장된 상태) |
| 교체 방식 | 자동 (시스템이 알아서 투입) | 수동 (엔지니어가 뛰어가서 꽂아야 함) |
| 복구 시간 | 장애 발생 즉시 리빌딩 시작 | 엔지니어가 도착할 때까지 지연됨 |
| 용도 | 무인 자동 복구, 골든타임 확보 | 단순 재고(여분) 관리 |
핵심 차이: 핫 스페어는 "즉시 투입 가능한 5분 대기조"이고, 콜드 스페어는 "창고에 있는 예비 부품"입니다.
4."전용"이냐 "공용"이냐
RAID를 구성할 때 핫 스페어 설정에서 가장 고민하는 부분과 팁을 공유합니다.
Tip 1. Global vs Dedicated 설정을 구분하세요.
RAID 컨트롤러 설정에 들어가면 핫 스페어 종류를 고르라고 나옵니다.
- Global Hot Spare: 서버 안에 RAID 그룹이 여러 개(A팀, B팀) 있을 때, 어느 팀이든 다치면 가서 때우는 만능 대기 선수입니다. 가장 많이 씁니다.
- Dedicated Hot Spare: 특정 RAID 그룹(예: 중요 DB 볼륨)이 고장 났을 때만 투입됩니다.
다른 그룹이 고장 나면 쳐다도 안 봅니다. 정말 중요한 데이터가 있을 때 Dedicated 를 적용합니다.
Tip 2. "리빌딩" 중에는 서버가 느려집니다.
"핫 스페어가 있으니 안심!"이라고 생각하면 안 됩니다.
핫 스페어가 투입되어 데이터를 복구(리빌딩)하는 동안에는 디스크가 미친 듯이 연산을 합니다.
당연히 서비스 속도가 느려지겠죠? 그래서 엔지니어는 "리빌딩 우선순위(Rebuild Rate)"를 조절해야 합니다.
너무 높이면 서비스가 렉 걸리고, 너무 낮추면 복구가 늦어집니다. 보통 30% 정도로 맞추는 게 국룰입니다.
Tip 3. "카피백(Copyback)" 기능을 확인하세요.
핫 스페어가 투입돼서 잘 돌고 있다가, 나중에 엔지니어가 와서 고장 난 디스크를 새것으로 갈아 끼우면 어떻게 될까요?
- Copyback 활성화 시: 핫 스페어에 있던 데이터를 다시 새 디스크로 옮기고, 핫 스페어는 다시 벤치(대기 상태)로 돌아갑니다. (원대 복귀)
- 설정을 안 하면 핫 스페어가 주전으로 계속 뛰고, 새로 꽂은 디스크가 핫 스페어가 되기도 합니다.

요약
- 핫 스페어(Hot Spare)는 서버에 전원이 연결된 상태로 대기하다가, 디스크 장애 시 자동으로 투입되어 데이터를 복구하는 필수 안전장치다.
- 창고에 보관하는 콜드 스페어와 달리 엔지니어의 개입 없이 즉시 리빌딩을 시작하므로, 데이터 유실 위험 시간(골든타임)을 획기적으로 줄여준다.
- Global(공용)과 Dedicated(전용) 설정을 상황에 맞게 사용해야 하며, 리빌딩 중에는 서버 성능 저하가 발생할 수 있음을 인지해야 한다.
'IT' 카테고리의 다른 글
| 랜선 하나 끊겨도 네트워크가 안 끊긴다고? LACP와 본딩(Bonding) 정리 (0) | 2026.03.24 |
|---|---|
| 파워서플라이 80 Plus 티타늄 vs 골드, 진짜 전기세로 본전 뽑을 수 있을까? (1) | 2026.03.21 |
| 토렌트(Torrent) 원리: 서버도 없는데 어떻게 파일을 다운로드할까? (1) | 2026.03.17 |
| VPN vs 프록시(Proxy): VPN 쓰면 진짜 익명일까? 무료 VPN의 위험성 (0) | 2026.03.14 |
| 외장 하드 케이스(DAS) vs NAS: 데이터 백업용으로 뭐가 좋을까? (1) | 2026.03.12 |