인문학, 사회과학, 수학 등 다양한 도메인의 지식을 망라하여 모델의 일반적인 이해도를 종합 평가하는 대형 벤치마크 데이터셋입니다.
기초 성능 평가에서 가장 빈번하게 인용되는 표준 지표입니다. 점차 모델들이 상향 평준화됨에 따라 변별력 한계 지적이 공존합니다.