Red-Teaming
보안 요원이나 적대적 자동화 공격 모델을 모사하여, 배포 예정 시스템의 안전 제약망을 부수고 가혹한 탈옥 처리를 유도해 결함을 찾아내는 적대적 검증 기법입니다.
에이전트가 실제 행동을 하기 시작하면서 모델 안전성을 사전 검증하지 않으면 product launch 자체가 위험해졌기 때문이다.
red-teaming은 한 번에 끝나는 audit가 아니라 release마다 돌리는 회귀 테스트다.
공개 모델 카드의 red-team 결과만 보고 자기 시스템 red-team을 건너뛰는 것.
Builder 관점의 red-team은 모델보다 prompt·tool·workflow의 결합에서 새는 구멍을 찾는 것이다.