지시어 추종 모델들의 일차 응답 텍스트 수준을 초창기 표준 Baseline 모델 응답 결과와 1대1로 자동 판정 대조시키는 고속 채점 벤치마크입니다.
오픈소스 지시문 파인튜닝 연구 초기 단계를 리드했던 유서 깊은 평가 모델입니다. 현재는 아레나 시스템 등에 밀려 보조 지표로 한정 활용됩니다.