AI Memory 플랫폼 — Tensormesh & WEKA
[!tldr] 업무 관점 takeaway AI inference 시대에는 "KV cache를 어디에 저장하느냐"가 GPU 비용과 TTFT를 결정한다. Tensormesh는 클러스터 규모의 KV cache 공유 플랫폼, WEKA는 그 아래에서 KV를 빠르게 이동시키는 distributed storage fabric이다. 삼성 FDP SSD/HC SSD는 이 스택의 physical device 레이어 — LMCache가 쓰는 raw_block backend 자리가 바로 여기다.
AI 인프라 패러다임 전환
Training 중심 시대:
Compute scaling (더 많은 GPU, 더 높은 FLOPS)
Inference 중심 시대:
Memory & Storage scaling
(KV cache 저장/이동/재사용이 핵심 병목)
Long context(수만 토큰), RAG, AI Agent 워크로드가 확산되면서 요청당 KV cache 크기가 수 GB에 달하는 상황이 일반화되고 있다. GPU HBM만으로는 확장이 불가능해지면서 CPU DRAM → NVMe SSD → Distributed Storage 계층이 GPU memory hierarchy의 연장선으로 진화 중이다.
Tensormesh
역할
LMCache가 단일 노드의 KV cache 기능을 제공한다면, Tensormesh는 데이터센터 규모에서 KV cache를 운영·공유·최적화하는 플랫폼이다.
LMCache → KV cache 기능 (저장/복원)
Tensormesh → KV cache를 클러스터 전체에서 관리
해결하려는 문제
| 문제 | 설명 |
|---|---|
| GPU memory 비용 | KV를 HBM에만 유지하면 $/GB가 너무 높음 |
| Repeated Prefill | 동일 system prompt·문서를 매 요청마다 재계산 |
| Worker-local cache | Worker A의 cache ≠ Worker B의 cache → 공유 불가 |
| Cluster-wide reuse 부재 | 노드 간 재사용 경로 없음 |
LMCache와의 관계
LMCache는 KV offloading 엔진(단일 인스턴스). Tensormesh는 LMCache 위에서 다음을 추가한다:
- 클러스터 규모 KV routing
- cross-worker cache 공유
- 비용 최적화 tier 관리
WEKA
역할
WEKA는 GPU/AI 워크로드 전용 distributed storage platform이다. 기존 storage가 단순 persistence였다면 WEKA는 GPU에 매우 빠르게 데이터를 공급하는 memory-adjacent storage를 목표로 한다.
LMCache + WEKA 구조
vLLM
↓
LMCache
↓
WEKA Distributed Storage (분산 NVMe + RDMA)
| 기술 | 역할 |
|---|---|
| Distributed NVMe | 노드 전체의 NVMe를 하나의 pool로 |
| RDMA networking | KV 이동 시 CPU 개입 최소화 |
| GPUDirect Storage (GDS) | CPU 우회 직접 DMA |
| Parallel storage access | KV restore latency 분산 |
KV restore path에서 random read latency와 tail latency가 GPU stall 주요 원인 → WEKA가 이를 완화하는 fabric 역할.
Samsung FDP SSD의 위치
vLLM
↓
LMCache (raw_block backend)
↓
[WEKA or local cluster]
↓
Samsung FDP SSD / HC SSD ← 여기
Samsung은 Storage Device 레이어에 위치한다. LMCache/Tensormesh/WEKA가 저장하려는 KV를 실제로 담는 physical device가 우리 몫.
LMCache workload가 FDP에 잘 맞는 이유:
| 특성 | FDP 적합성 |
|---|---|
| Sequential append-heavy | ✅ FDP target workload |
| WORM 성향 | ✅ overwrite 거의 없음 |
| Lifecycle grouping 가능 | ✅ per-prompt/phase/TP-worker 분리 |
| 낮은 overwrite 비율 | ✅ WAF 감소 효과 큼 |
HC SSD의 강점(대용량 + 낮은 $/TB)은 "KV pool을 크게 가져갈수록 cache hit rate가 올라가는" LMCache 특성과 직접 연결된다. 다만 tail latency 제어(GPU stall 방지)가 핵심 tradeoff.
관련 페이지
- [[LMCache-아키텍처]] — 4-tier memory hierarchy
- [[FDP-SSD-LMCache-PoC]] — KV placement 전략 3가지
- [[HC-SSD]] — QLC 기반 대용량, WAF 위험
- [[GPU-Direct-Storage]] — WEKA GDS 연동 경로
- [[raw_block-종단-분석]] — LMCache raw_block backend 전계층