본문으로 건너뛰기

HC-SSD (High Capacity SSD)

[!tldr] 업무 관점 takeaway QLC NAND 기반 대용량 SSD. WAF 민감도가 TLC 대비 크다 = [[NVMe-FDP|FDP]] 효과가 더 두드러질 것이라는 가설의 미디어. KV Cache처럼 용량은 크고 random write가 많은 워크로드에서 FDP 없으면 latency·수명 모두 빠르게 나빠진다. "FDP가 가장 필요한 미디어 = HC-SSD". 우리 회사의 HW 라인업과 정확히 일치하는 지점.


정의

데이터센터/AI 인프라용으로 설계된 대용량(수 TB ~ 수십 TB) SSD. 단순히 "큰 SSD"가 아니라 다음 특성 묶음을 가진 제품군:

특성설명
대용량수 TB ~ 수십 TB
TLC 또는 QLC NAND셀당 3~4비트 저장 → 대용량
높은 WAF 취약성특히 QLC는 WAF 커지면 성능 급락
낮은 내구성 (TBW)셀당 쓰기 횟수 제한적

NAND 종류 비교: [[NAND-Flash-기초]] 참조.


왜 LMCache가 HC-SSD를 쓰나

  • [[KV-Cache]]는 GPU 메모리(16~80GB) 대비 훨씬 큰 공간 필요
  • HC-SSD는 비용 대비 용량이 탁월
  • 단점: WAF 관리 필수 → [[NVMe-FDP|FDP]] 핵심 솔루션
LMCache 4-tier storage:
GPU Mem (가장 빠름, 가장 작음)

CPU Mem

Local Disk = HC-SSD ← 비용 대비 용량으로 가장 합리적

Remote Storage

QLC의 함정

TLC: 셀당 3비트, write latency 보통, WAF 민감도 보통
QLC: 셀당 4비트, write latency ↑, WAF 민감도 ↑
  • 같은 WAF 값에서 QLC가 더 큰 손해
  • FDP로 WAF를 ~1.0으로 끌어내리지 않으면 QLC의 가성비 의미 없음
  • 반대로 FDP가 잘 동작하면 QLC의 약점이 사라지고 가성비만 남음

우리 가설

HC-SSD에서 FDP 효과가 TLC 대비 더 두드러진다.

검증 시나리오:

  • 같은 LMCache 워크로드를 TLC vs HC-SSD(QLC) 두 미디어에 돌리고
  • FDP ON/OFF 4조합 비교
  • 측정: [[WAF]], p99 write latency, [[TTFT-ITL|TTFT]]

이게 [[Mission]]의 "세부 목표 #5"에 해당.


Host Control 측면

HC-SSD는 보통 host가 더 적극적으로 placement를 제어할 수 있는 인터페이스를 제공한다 (FDP, host-managed wear leveling 등).

→ [[기여-포인트-맵|기여 포인트 [10]]] = HC-SSD의 host control 인터페이스를 LMCache가 잘 활용하도록 SW 레이어 설계.


의외의 연결

[!note] HC-SSD의 약점이 우리 SW팀 일거리 QLC의 WAF 민감도는 SW가 어떻게 쓰느냐에 크게 좌우된다. HW팀이 만든 좋은 SSD를 SW로 망치지 않는 것, 그리고 SW로 더 끌어내는 것이 우리 미션의 정확한 가치 제안.


관련 페이지

  • [[NAND-Flash-기초]] — QLC의 물리 특성
  • [[WAF]] — HC-SSD에서 더 민감한 지표
  • [[NVMe-FDP]] — HC-SSD 약점을 푸는 도구
  • [[CacheLib-FDP-사례]] — HC-SSD에서 FDP 효과 정량 사례
  • [[LMCache-Local-Disk-Backend]] — HC-SSD가 들어갈 자리
  • [[Mission]] — HC-SSD가 회사 라인업과 일치하는 이유