Inference
학습이 완료된 모델에 새로운 입력을 제공하여 출력을 생성해내는 실행 시간 과정을 의미합니다.
training보다 inference 비용이 product 운영비의 대부분을 차지하게 되면서 inference 최적화가 본격적인 경쟁 영역이 됐기 때문이다.
Inference 비용은 모델 사이즈가 아니라 batch·KV cache·speculative decoding으로 결정되는 경우가 더 많다.
model size만 보고 inference 비용을 예측하는 것.
Inference 최적화는 'GPU 더 사기'가 아니라 batching·caching·speculative decoding을 얼마나 촘촘히 묶느냐의 게임이다.