Vision-Language Model
이미지 시각 정보의 인코딩 표현과 언어 지능 공간을 하나로 정렬하여 시각 데이터 분석과 질의응답 논리 처리를 동시에 수행하는 모델입니다.
스크린샷 레이아웃 파싱, 아날로그 문서 영수증 복원, 실물 사물 판독 등 멀티모달 에이전트를 조립하기 위한 기초 전제 역량입니다.