Tokenization
입력 텍스트를 모델이 연산 가능한 형태인 토큰 단위 문자열 조각으로 변환하고 쪼개는 전처리 과정입니다.
Korean·CJK·코드 토큰 효율이 모델마다 달라 비용·context length가 직접 영향을 받기 때문이다.
한국어 1자 = 2~4 token인 모델이 흔하다 — 비용 추정은 항상 실제 tokenizer로 측정해야 한다.
영어 단어 1.3 token 기준으로 한국어 비용을 추정하는 것.
Tokenization은 model spec 한 줄이 아니라 한국어 builder에게는 비용·context 의사결정의 출발점이다.