본문으로 건너뛰기

AI Memory 플랫폼 — Tensormesh & WEKA

[!tldr] 업무 관점 takeaway AI inference 시대에는 "KV cache를 어디에 저장하느냐"가 GPU 비용과 TTFT를 결정한다. Tensormesh는 클러스터 규모의 KV cache 공유 플랫폼, WEKA는 그 아래에서 KV를 빠르게 이동시키는 distributed storage fabric이다. 삼성 FDP SSD/HC SSD는 이 스택의 physical device 레이어 — LMCache가 쓰는 raw_block backend 자리가 바로 여기다.


AI 인프라 패러다임 전환

Training 중심 시대:
Compute scaling (더 많은 GPU, 더 높은 FLOPS)

Inference 중심 시대:
Memory & Storage scaling
(KV cache 저장/이동/재사용이 핵심 병목)

Long context(수만 토큰), RAG, AI Agent 워크로드가 확산되면서 요청당 KV cache 크기가 수 GB에 달하는 상황이 일반화되고 있다. GPU HBM만으로는 확장이 불가능해지면서 CPU DRAM → NVMe SSD → Distributed Storage 계층이 GPU memory hierarchy의 연장선으로 진화 중이다.


Tensormesh

역할

LMCache가 단일 노드의 KV cache 기능을 제공한다면, Tensormesh는 데이터센터 규모에서 KV cache를 운영·공유·최적화하는 플랫폼이다.

LMCache → KV cache 기능 (저장/복원)
Tensormesh → KV cache를 클러스터 전체에서 관리

해결하려는 문제

문제설명
GPU memory 비용KV를 HBM에만 유지하면 $/GB가 너무 높음
Repeated Prefill동일 system prompt·문서를 매 요청마다 재계산
Worker-local cacheWorker A의 cache ≠ Worker B의 cache → 공유 불가
Cluster-wide reuse 부재노드 간 재사용 경로 없음

LMCache와의 관계

LMCache는 KV offloading 엔진(단일 인스턴스). Tensormesh는 LMCache 위에서 다음을 추가한다:

  • 클러스터 규모 KV routing
  • cross-worker cache 공유
  • 비용 최적화 tier 관리

WEKA

역할

WEKA는 GPU/AI 워크로드 전용 distributed storage platform이다. 기존 storage가 단순 persistence였다면 WEKA는 GPU에 매우 빠르게 데이터를 공급하는 memory-adjacent storage를 목표로 한다.

LMCache + WEKA 구조

vLLM

LMCache

WEKA Distributed Storage (분산 NVMe + RDMA)
기술역할
Distributed NVMe노드 전체의 NVMe를 하나의 pool로
RDMA networkingKV 이동 시 CPU 개입 최소화
GPUDirect Storage (GDS)CPU 우회 직접 DMA
Parallel storage accessKV restore latency 분산

KV restore path에서 random read latency와 tail latency가 GPU stall 주요 원인 → WEKA가 이를 완화하는 fabric 역할.


Samsung FDP SSD의 위치

vLLM

LMCache (raw_block backend)

[WEKA or local cluster]

Samsung FDP SSD / HC SSD ← 여기

Samsung은 Storage Device 레이어에 위치한다. LMCache/Tensormesh/WEKA가 저장하려는 KV를 실제로 담는 physical device가 우리 몫.

LMCache workload가 FDP에 잘 맞는 이유:

특성FDP 적합성
Sequential append-heavy✅ FDP target workload
WORM 성향✅ overwrite 거의 없음
Lifecycle grouping 가능✅ per-prompt/phase/TP-worker 분리
낮은 overwrite 비율✅ WAF 감소 효과 큼

HC SSD의 강점(대용량 + 낮은 $/TB)은 "KV pool을 크게 가져갈수록 cache hit rate가 올라가는" LMCache 특성과 직접 연결된다. 다만 tail latency 제어(GPU stall 방지)가 핵심 tradeoff.


관련 페이지

  • [[LMCache-아키텍처]] — 4-tier memory hierarchy
  • [[FDP-SSD-LMCache-PoC]] — KV placement 전략 3가지
  • [[HC-SSD]] — QLC 기반 대용량, WAF 위험
  • [[GPU-Direct-Storage]] — WEKA GDS 연동 경로
  • [[raw_block-종단-분석]] — LMCache raw_block backend 전계층