본문 바로가기
IT

RAID만 믿다간 큰일 납니다. "핫 스페어(Hot Spare)" 완벽 정리

by 아이럽스토리지 2026. 3. 19.
반응형

금요일 밤, 디스크가 죽는다면?

"서버 장애는 반드시 금요일 밤이나 휴가 가는 날 터진다"는 머피의 법칙이 있습니다

RAID 5나 RAID 6로 디스크를 묶어놨으니 안전하다고 안심하시나요? 만약 금요일 밤에 디스크 하나가 고장 났다고 칩시다.
엔지니어가 출근하는 월요일 아침까지 서버는 "위태로운 상태(Degraded)"로 돌아가야 합니다.
그런데 하필 그 주말 사이에
또 다른 디스크가 하나 더 고장 난다면? 바로 그 순간 데이터는 영원히 요단강을 건너게 됩니다.

이때 서버실에 아무도 없어도, 자동으로 튀어나와서 구멍 난 곳을 메꿔주는 든든한 대기 선수가 있습니다.
바로 "핫 스페어(Hot Spare)"입니다. 오늘은 RAID 구성의 마지막 안전핀, 핫 스페어에 대해 알아보겠습니다.

 


1. 축구팀의 벤치 멤버 (대기 선수)

핫 스페어를 가장 쉽게 이해하려면 "축구 경기"를 떠올리면 됩니다.

  • RAID 그룹 (선발 선수 11명): 그라운드에서 실제로 뛰고 있는 디스크들입니다. 열심히 데이터를 읽고 쓰며 경기를 뜁니다.
  • 디스크 고장 (부상 발생): 경기 도중 주전 선수 한 명이 부상을 당해 쓰러졌습니다. 경기를 계속하려면 자리를 채워야겠죠?
  • 핫 스페어 (벤치 멤버): 유니폼을 입고 벤치에 앉아 있던 대기 선수입니다. 감독(RAID 컨트롤러)이 "들어가!"라고 신호를 보내면, 그 즉시 그라운드로 뛰어들어가 부상당한 선수의 빈자리를 채웁니다.

중요한 건 이 교체가 "자동으로" 이루어진다는 점입니다.
감독이 관중석에서 자고 있어도, 시스템이 알아서 대기 선수를 투입해 경기가 중단되지 않게 만드는 것이죠.

 


2. 작동 원리 및 구조: 당신이 잠든 사이에 일어나는 일

핫 스페어가 실제로 어떻게 작동해서 데이터를 살려내는지 단계별(Step-by-Step)로 살펴보겠습니다.

  1. 대기 상태 (Standby): 핫 스페어 디스크는 서버에 꽂혀 있고 전원도 들어와 있지만, 아무런 데이터도 저장하지 않고 조용히 대기합니다. (벤치에서 몸 풀기)
  2. 장애 감지 (Failure Detection): RAID 컨트롤러가 "어? 3번 디스크가 응답이 없네? 죽었구나."라고 판단합니다. RAID 상태가 Optimal(정상)에서 Degraded(위험)로 바뀝니다.
  3. 자동 투입 (Activation): 컨트롤러는 즉시 핫 스페어 디스크를 깨워서 RAID 그룹에 합류시킵니다.
  4. 리빌딩 (Rebuilding): 살아있는 나머지 디스크들의 정보(Parity)를 긁어모아서, 죽은 3번 디스크가 가지고 있던 데이터를 계산해 핫 스페어 디스크에 다시 씁니다. 이 과정을 "리빌딩"이라고 합니다.
  5. 정상화: 리빌딩이 끝나면 핫 스페어는 이제 정식 멤버가 됩니다. 서버는 다시 안전한 상태로 돌아옵니다.

 


3. 비교 분석: 핫 스페어 vs 콜드 스페어

면접이나 실무에서 "스페어 디스크"라고 하면 이 두 가지를 구분해야 합니다.

비교 항목 핫 스페어 (Hot Spare) 콜드 스페어 (Cold Spare)
위치 서버 내부에 장착됨 서버실 선반이나 창고에 보관
전원 상태 ON (항상 켜져 있음) OFF (박스에 포장된 상태)
교체 방식 자동 (시스템이 알아서 투입) 수동 (엔지니어가 뛰어가서 꽂아야 함)
복구 시간 장애 발생 즉시 리빌딩 시작 엔지니어가 도착할 때까지 지연됨
용도 무인 자동 복구, 골든타임 확보 단순 재고(여분) 관리

핵심 차이: 핫 스페어는 "즉시 투입 가능한 5분 대기조"이고, 콜드 스페어는 "창고에 있는 예비 부품"입니다.

 


4."전용"이냐 "공용"이냐 

RAID를 구성할 때 핫 스페어 설정에서 가장 고민하는 부분과 팁을 공유합니다.

Tip 1. Global vs Dedicated 설정을 구분하세요.

RAID 컨트롤러 설정에 들어가면 핫 스페어 종류를 고르라고 나옵니다.

  • Global Hot Spare: 서버 안에 RAID 그룹이 여러 개(A팀, B팀) 있을 때, 어느 팀이든 다치면 가서 때우는 만능 대기 선수입니다. 가장 많이 씁니다.
  • Dedicated Hot Spare: 특정 RAID 그룹(예: 중요 DB 볼륨)이 고장 났을 때만 투입됩니다.
    다른 그룹이 고장 나면 쳐다도 안 봅니다. 정말 중요한 데이터가 있을 때 Dedicated 를 적용합니다.

Tip 2. "리빌딩" 중에는 서버가 느려집니다.

"핫 스페어가 있으니 안심!"이라고 생각하면 안 됩니다.
핫 스페어가 투입되어 데이터를 복구(리빌딩)하는 동안에는 디스크가 미친 듯이 연산을 합니다.

당연히 서비스 속도가 느려지겠죠? 그래서 엔지니어는 "리빌딩 우선순위(Rebuild Rate)"를 조절해야 합니다.
너무 높이면 서비스가 렉 걸리고, 너무 낮추면 복구가 늦어집니다. 보통 30% 정도로 맞추는 게 국룰입니다.

Tip 3. "카피백(Copyback)" 기능을 확인하세요.

핫 스페어가 투입돼서 잘 돌고 있다가, 나중에 엔지니어가 와서 고장 난 디스크를 새것으로 갈아 끼우면 어떻게 될까요?

  • Copyback 활성화 : 핫 스페어에 있던 데이터를 다시 새 디스크로 옮기고, 핫 스페어는 다시 벤치(대기 상태)로 돌아갑니다. (원대 복귀)
  • 설정을 안 하면 핫 스페어가 주전으로 계속 뛰고, 새로 꽂은 디스크가 핫 스페어가 되기도 합니다.

 


요약

  1. 핫 스페어(Hot Spare)는 서버에 전원이 연결된 상태로 대기하다가, 디스크 장애 시 자동으로 투입되어 데이터를 복구하는 필수 안전장치다.
  2. 창고에 보관하는 콜드 스페어와 달리 엔지니어의 개입 없이 즉시 리빌딩을 시작하므로, 데이터 유실 위험 시간(골든타임)을 획기적으로 줄여준다.
  3. Global(공용)과 Dedicated(전용) 설정을 상황에 맞게 사용해야 하며, 리빌딩 중에는 서버 성능 저하가 발생할 수 있음을 인지해야 한다.

 

반응형