Context Window
LLM이 단일 연산 과정에서 동시에 처리하고 주목할 수 있는 입력 및 출력 토큰의 최대 수치입니다.
100K~1M 컨텍스트 모델이 표준이 되면서 RAG vs long-context 선택이 모든 LLM 제품의 설계 결정이 됐기 때문이다.
긴 컨텍스트는 비용·지연시간·attention 품질 저하를 동반한다 — 더 많이 넣는 게 항상 좋은 게 아니다.
긴 컨텍스트가 RAG를 대체한다고 믿고 모든 문서를 그냥 다 넣어버리는 것.
Long-context는 RAG의 종말이 아니라 RAG·long-context를 use case별로 섞어 쓰는 새로운 설계 공간을 연 것이다.