대규모 병렬 연산에 특화되어 LLM의 학습 및 추론을 가속하는 하드웨어 장치입니다.
LLM serving·training의 거의 모든 결정이 GPU 가용성·메모리·throughput 제약 아래서 이뤄지기 때문이다.
GPU 선택은 VRAM·메모리 대역폭·CUDA 호환을 먼저 보고 FLOPS는 그 다음이다.
FLOPS·이름값으로 GPU를 고르고 KV cache·context 길이로 인한 OOM을 미리 계산 안 하는 것.
Builder 입장에서 GPU 선택은 모델 선택만큼이나 product 의사결정이다 — 둘 다 cost·latency를 직접 정한다.