Transformer
자가 주의 집중 메커니즘을 사용하여 시퀀스 데이터를 병렬로 처리할 수 있도록 설계된 신경망 아키텍처입니다.
거의 모든 현대 LLM·multimodal 모델의 공통 아키텍처가 transformer이기 때문이다.
Builder는 transformer 자체보다 attention·KV cache·context window 같은 제약이 product 결정에 어떻게 영향을 주는지를 알면 된다.
구조를 외우고 product 시스템 결정과 연결 짓지 못하는 것.
Transformer는 builder에게 'tweak할 대상'이 아니라 'inference 제약을 만드는 환경'에 가깝다.