PagedAttention
가상 메모리의 페이징 기법을 벤치마킹하여, 불연속적인 메모리 파편 공간 상에 KV 캐시 데이터를 효율적으로 할당 및 공유하는 최적화 알고리즘입니다.
오픈소스 서빙 효율화를 달성한 혁신적 이정표입니다. 메모리 단편화 현상을 제거하여 인프라의 동시 처리 속도를 몇 배 이상 개선했습니다.