Quantization
모델 가중치의 정밀도를 낮추어 메모리 사용량을 줄이고 추론 속도를 높이는 최적화 기법입니다.
큰 모델을 작은 GPU·로컬 디바이스에서 돌리기 위해 정밀도를 깎는 것이 거의 모든 로컬 serving의 default가 됐기 때문이다.
FP16 → INT8 → INT4까지 내려가도 task에 따라 품질 손실이 거의 없는 경우가 많다 — 항상 측정 후 결정해야 한다.
Quantization 강도만 보고 'INT4면 무조건 품질 떨어진다'고 단정하는 것.
Quantization은 '얼마나 더 가볍게'가 아니라 '얼마나 더 싸게 같은 품질을 유지하느냐'의 비용 최적화 도구다.