AI-NativeAI 네이티브
사람의 선호도가 반영된 순위 데이터를 바탕으로 보상 모델을 훈련시킨 후, 강화학습 방식을 결합해 모델의 행동을 정렬하는 방법입니다.
기초 모델을 대중 친화적인 유용한 서비스 형태로 가공하는 얼라인먼트 레이어의 핵심 기법입니다.