Issue #3262 — [RFC] Distributed MP mode 설계 논의

[!tldr] 업무 관점 takeaway DongDongJu가 열어둔 크로스 노드 KV Cache 공유 설계 RFC. 현재 MP mode는 단일 노드 내 공유만 지원. 멀티 노드로 확장 시 Samsung NVMe SSD를 공유 L2로 사용하는 Design A가 우리 기여 진입점. 설계 토론이 열려 있어 의견 제시 가능.

기본 정보

항목	내용
이슈 번호	#3262
작성자	DongDongJu
상태	Open (설계 토론 진행 중)

배경

현재 MP mode 구조:

Node A:
  vLLM A1 ─┐
  vLLM A2 ─┤─→ LMCache server (단일 노드 내 공유)
  vLLM A3 ─┘

열린 질문: 서로 다른 노드의 LMCache server들이 KV Cache를 어떻게 공유/조회하나?

논의된 설계 옵션

DongDongJu가 제안한 방향 (정확한 design 번호는 RFC 원문 참조):

방식	핵심	우리 관련성
공유 NVMe (shared L2)	여러 노드가 같은 NVMe/SSD에 접근	Samsung NVMe 공유 L2 기여 진입점
P2P (NIXL/Mooncake)	노드 간 RDMA/네트워크로 직접 전달	hlin99 제안, 고성능 옵션
중앙 coordinator	별도 캐시 서버 경유	레이턴시 추가

주요 리뷰어 의견:

hlin99: P2P by NIXL or Mooncake — 성능 우선이면 이쪽
관련 PR #3143 (PD disaggregation) cross-reference됨

우리 기여 가능 지점

Samsung NVMe 공유 L2 시나리오: 여러 노드가 같은 Samsung SSD 접근하는 구조에서 backend wiring + 의견 제시
설계 선택에 Samsung SSD 관점(WAF, FDP, 대역폭) 인풋 제공
일관성 프로토콜은 DongDongJu 영역 → 우리는 백엔드 레이어 담당

기본 정보​

배경​

논의된 설계 옵션​

우리 기여 가능 지점​

관련 페이지​

기본 정보

배경

논의된 설계 옵션

우리 기여 가능 지점

관련 페이지