Benchmark
모델의 일반 지식, 추론 능력, 수학적 역량 등을 정량적으로 비교 측정하기 위해 고안된 표준화된 평가 데이터셋입니다.
모델·시스템 비교가 폭증하면서 벤치마크 의존도가 빠르게 커졌기 때문이다.
공개 벤치마크는 출발점일 뿐이다 — 내 도메인 평가셋 없이는 진짜 성능을 모른다.
MMLU·HumanEval 같은 공개 벤치마크 점수로 production fit을 결정하는 것.
Builder가 가져야 할 진짜 자산은 공개 벤치마크가 아니라 내 도메인 eval set이다. 그게 사실상의 product spec이다.