별도의 복잡한 보상 모델 훈련 단계를 거치지 않고, 사용자의 선호 데이터 쌍을 목적 함수에 대입하여 직접 정렬 학습을 처리하는 최적화 방식입니다.
불안정하고 복잡한 기존 RLHF 파이프라인의 구조적 한계를 대체합니다. 대다수 최신 오픈소스 지시문 조율 모델에 채택되는 추세입니다.