Prompt Caching
반복적으로 유입되는 프롬프트 접두사의 어텐션 연산 상태를 메모리에 보존하여 중복 계산을 방지하는 기술입니다.
긴 system prompt·long context가 일반화되면서 매 호출의 비용·latency가 비대칭으로 커졌기 때문이다.
프롬프트의 prefix만 잘 고정해도 50~90% 비용 절감이 흔하다.
변하는 동적 컨텍스트를 프롬프트 앞쪽에 넣어 cache hit을 무력화하는 것.
Prompt Caching은 단순 비용 절감 트릭이 아니라 system prompt를 어떻게 설계할지를 다시 보게 만드는 인프라 결정이다.