Streaming
LLM의 출력이 완전히 완료될 때까지 기다리지 않고, 생성되는 토큰을 실시간으로 사용자에게 순차 반환하는 기술입니다.
chat·코딩·agent 출력에서 token 단위 응답이 UX·신뢰의 표준이 됐기 때문이다.
streaming은 단순 UI 효과가 아니라 cancel·resume·partial recovery 같은 시스템 설계까지 결정한다.
stream 후 후처리(예: JSON 파싱)가 필요한 응답에서 streaming UX를 그대로 켜는 것.
Streaming은 'glitter UX'가 아니라 latency 인식·취소 가능성·partial result 활용을 product 레벨에서 다시 보게 만드는 default다.