Refusal Rate
사용자가 던진 질의 입력 항목 전체 풀 중에서, 모델이 자율 규범이나 안전 통제 기준 위반으로 판단하여 답변 이행을 명시적으로 거절 선언한 비율 수치입니다.
과도하게 방어적으로 훈련된 나머지 유익한 일상 질문마저 묵비권을 행사하는 지나친 정렬 부작용 현상을 모니터링하기 위한 음의 지표입니다.