Attention
시퀀스 내의 서로 다른 위치 간의 관계적 가중치를 계산하여 모델이 중요한 문맥에 집중할 수 있도록 만드는 메커니즘입니다.
트랜스포머 아키텍처의 핵심 혁신 요소입니다. 플래시 어텐션 등 이 메커니즘의 변형들이 모델의 장문 처리 능력을 결정합니다.