Issue #3262 — [RFC] Distributed MP mode 설계 논의
[!tldr] 업무 관점 takeaway DongDongJu가 열어둔 크로스 노드 KV Cache 공유 설계 RFC. 현재 MP mode는 단일 노드 내 공유만 지원. 멀티 노드로 확장 시 Samsung NVMe SSD를 공유 L2로 사용하는 Design A가 우리 기여 진입점. 설계 토론이 열려 있어 의견 제시 가능.
기본 정보
| 항목 | 내용 |
|---|---|
| 이슈 번호 | #3262 |
| 작성자 | DongDongJu |
| 상태 | Open (설계 토론 진행 중) |
배경
현재 MP mode 구조:
Node A:
vLLM A1 ─┐
vLLM A2 ─┤─→ LMCache server (단일 노드 내 공유)
vLLM A3 ─┘
열린 질문: 서로 다른 노드의 LMCache server들이 KV Cache를 어떻게 공유/조회하나?
논의된 설계 옵션
DongDongJu가 제안한 방향 (정확한 design 번호는 RFC 원문 참조):
| 방식 | 핵심 | 우리 관련성 |
|---|---|---|
| 공유 NVMe (shared L2) | 여러 노드가 같은 NVMe/SSD에 접근 | Samsung NVMe 공유 L2 기여 진입점 |
| P2P (NIXL/Mooncake) | 노드 간 RDMA/네트워크로 직접 전달 | hlin99 제안, 고성능 옵션 |
| 중앙 coordinator | 별도 캐시 서버 경유 | 레이턴시 추가 |
주요 리뷰어 의견:
- hlin99: P2P by NIXL or Mooncake — 성능 우선이면 이쪽
- 관련 PR #3143 (PD disaggregation) cross-reference됨
우리 기여 가능 지점
- Samsung NVMe 공유 L2 시나리오: 여러 노드가 같은 Samsung SSD 접근하는 구조에서 backend wiring + 의견 제시
- 설계 선택에 Samsung SSD 관점(WAF, FDP, 대역폭) 인풋 제공
- 일관성 프로토콜은 DongDongJu 영역 → 우리는 백엔드 레이어 담당
관련 페이지
- [[Samsung-LMCache-팀]] — DongDongJu 기여 영역
- [[AI-Memory-플랫폼]] — Tensormesh/WEKA 등 클러스터 KV 공유 배경