KV Cache
이전 추론 과정에서 도출된 토큰들의 키-밸류 가중치 상태를 메모리에 보관하여, 다음 문장 생성 시 전체 입력값에 대한 재연산을 생략하게 돕는 기술입니다.
실시간 서빙 인프라 자원의 핵심 부하 원인입니다. 대규모 컨텍스트를 다룰 때 메모리 점유율을 좌우하는 1순위 타깃입니다.