Continuous Batching
이전 요청 전체가 끝날 때까지 대기하지 않고, 개별 토큰 단위 출력이 조기 종료되는 대로 새로운 질의 요청을 동적으로 밀어 넣어 연산하는 스케줄링 기법입니다.
하드웨어 가동률을 극한으로 끌어올리는 서빙 필수 구현체입니다. 불필요한 대기 유휴 시간을 없애 인프라 비용을 낮춰줍니다.