대조 학습 방식을 활용해 특정 이미지 데이터와 이를 설명하는 설명문 텍스트 간의 연관 인코딩 공간을 통합 매핑한 멀티모달 모델입니다.
현대 비전-언어 결합 아키텍처 하부를 떠받치는 부품 같은 모델입니다. 텍스트로 이미지를 매칭하는 임베딩 필터링의 기초가 됩니다.