단발성 응답을 넘어 대화형 비서로서의 연속 대화 유도 능력을 측정하기 위해, GPT-4를 법관 판사로 삼아 다중 턴 응답 완성도를 채점하는 벤치마크입니다.
상용 지시어 조율 모델 배포 보도자료에 단골로 인용되는 핵심 품질 규격입니다. 연속 맥락 보존 역량을 점수화하는 지표입니다.