경량의 정렬 프로젝션 레이어를 매개로 삼아 기존의 검증된 시각 인코더와 오픈소스 LLM을 효율적으로 가로지른 비전 모델 아키텍처입니다.
오픈소스 멀티모달 연구의 기본 교과서 구조 역할을 수행합니다. 대다수 변형 비전 탑재 프로젝트가 이 설계 뼈대를 모방하여 출발했습니다.