사람의 선호도가 반영된 순위 데이터를 바탕으로 보상 모델을 훈련시킨 후, 강화학습 방식을 결합해 모델의 행동을 정렬하는 방법입니다.
기초 모델을 대중 친화적인 유용한 서비스 형태로 가공하는 얼라인먼트 레이어의 핵심 기법입니다.