AI Memory 플랫폼 — Tensormesh & WEKA

[!tldr] 업무 관점 takeaway AI inference 시대에는 "KV cache를 어디에 저장하느냐"가 GPU 비용과 TTFT를 결정한다. Tensormesh는 클러스터 규모의 KV cache 공유 플랫폼, WEKA는 그 아래에서 KV를 빠르게 이동시키는 distributed storage fabric이다. 삼성 FDP SSD/HC SSD는 이 스택의 physical device 레이어 — LMCache가 쓰는 raw_block backend 자리가 바로 여기다.

AI 인프라 패러다임 전환

Training 중심 시대:
  Compute scaling (더 많은 GPU, 더 높은 FLOPS)

Inference 중심 시대:
  Memory & Storage scaling
  (KV cache 저장/이동/재사용이 핵심 병목)

Long context(수만 토큰), RAG, AI Agent 워크로드가 확산되면서 요청당 KV cache 크기가 수 GB에 달하는 상황이 일반화되고 있다. GPU HBM만으로는 확장이 불가능해지면서 CPU DRAM → NVMe SSD → Distributed Storage 계층이 GPU memory hierarchy의 연장선으로 진화 중이다.

Tensormesh

역할

LMCache가 단일 노드의 KV cache 기능을 제공한다면, Tensormesh는 데이터센터 규모에서 KV cache를 운영·공유·최적화하는 플랫폼이다.

LMCache → KV cache 기능 (저장/복원)
Tensormesh → KV cache를 클러스터 전체에서 관리

해결하려는 문제

문제	설명
GPU memory 비용	KV를 HBM에만 유지하면 $/GB가 너무 높음
Repeated Prefill	동일 system prompt·문서를 매 요청마다 재계산
Worker-local cache	Worker A의 cache ≠ Worker B의 cache → 공유 불가
Cluster-wide reuse 부재	노드 간 재사용 경로 없음

LMCache와의 관계

LMCache는 KV offloading 엔진(단일 인스턴스). Tensormesh는 LMCache 위에서 다음을 추가한다:

클러스터 규모 KV routing
cross-worker cache 공유
비용 최적화 tier 관리

WEKA

역할

WEKA는 GPU/AI 워크로드 전용 distributed storage platform이다. 기존 storage가 단순 persistence였다면 WEKA는 GPU에 매우 빠르게 데이터를 공급하는 memory-adjacent storage를 목표로 한다.

LMCache + WEKA 구조

vLLM
  ↓
LMCache
  ↓
WEKA Distributed Storage (분산 NVMe + RDMA)

기술	역할
Distributed NVMe	노드 전체의 NVMe를 하나의 pool로
RDMA networking	KV 이동 시 CPU 개입 최소화
GPUDirect Storage (GDS)	CPU 우회 직접 DMA
Parallel storage access	KV restore latency 분산

KV restore path에서 random read latency와 tail latency가 GPU stall 주요 원인 → WEKA가 이를 완화하는 fabric 역할.

Samsung FDP SSD의 위치

vLLM
  ↓
LMCache (raw_block backend)
  ↓
[WEKA or local cluster]
  ↓
Samsung FDP SSD / HC SSD  ← 여기

Samsung은 Storage Device 레이어에 위치한다. LMCache/Tensormesh/WEKA가 저장하려는 KV를 실제로 담는 physical device가 우리 몫.

LMCache workload가 FDP에 잘 맞는 이유:

특성	FDP 적합성
Sequential append-heavy	✅ FDP target workload
WORM 성향	✅ overwrite 거의 없음
Lifecycle grouping 가능	✅ per-prompt/phase/TP-worker 분리
낮은 overwrite 비율	✅ WAF 감소 효과 큼

HC SSD의 강점(대용량 + 낮은 $/TB)은 "KV pool을 크게 가져갈수록 cache hit rate가 올라가는" LMCache 특성과 직접 연결된다. 다만 tail latency 제어(GPU stall 방지)가 핵심 tradeoff.

AI 인프라 패러다임 전환​

Tensormesh​

역할​

해결하려는 문제​

LMCache와의 관계​

WEKA​

역할​

LMCache + WEKA 구조​

Samsung FDP SSD의 위치​

관련 페이지​