Multimodal Model
텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 입력 데이터를 하나의 통합된 표현 공간에서 기본적으로 처리하는 모델입니다.
이미지·문서·UI 스크린샷을 LLM이 직접 다루는 사례가 폭증하면서 OCR·전처리 파이프라인의 일부를 대체하고 있기 때문이다.
멀티모달은 입력 다양성보다 출력의 일관성·structured output 능력으로 가치가 갈린다.
이미지만 넣으면 알아서 잘 읽을 거라 가정하고 prompt·schema 설계를 소홀히 하는 것.
Multimodal의 진짜 product 가치는 새로운 입력 형태가 아니라 OCR·document parsing 파이프라인의 단순화에 있다.