Adversarial Test
겉보기에는 평범하고 건전해 보이지만 시스템의 미세 취약 지점이나 고유 에러 케이스 결함을 의도적으로 저격하도록 정밀 설계된 특수 악의성 평가 데이터셋입니다.
일반 표준 공인 벤치마크 점수가 90점을 상회하는 우등생 모델일지라도, 정밀 가공된 적대적 셋 앞에서는 점수가 처참히 붕괴하는 현상을 상시 노출합니다.