지연 시간 및 인프라 운영 비용을 낮추기 위해 특정 규모 이하로 최적화하여 설계한 소형 언어 모델입니다.
기기 자체 구동이나 하위 라우팅 처리에 유리한 대안입니다. 대형 모델의 연산 비용 부담을 덜어주는 역할을 수행합니다.