가장 자주 중복 등장하는 바이트 데이터 문자열 쌍을 반복적으로 하나의 결합 토큰 규격으로 묶어 나가는 상향식 하위 단어 분절 알고리즘입니다.
대다수 글로벌 플래그십 파운데이션 모델의 토크나이저 설계 뼈대를 이루는 지배적인 텍스트 전처리 규격입니다.