Throughput
쓰루풋
AI 모델 운영 분야에서 쓰이는 용어로, LLM 서비스가 단위 시간당 처리할 수 있는 토큰 양 또는 동시 요청 수를 가리키며, 보통 초당 토큰(TPS) 단위로 측정하는 성능 지표입니다.
Throughput은 LLM(Large Language Model, 거대 언어 모델) 서비스가 1초 동안 만들어낼 수 있는 글자(토큰) 수예요. 조별 과제에서 한 명이 답을 빠르게 쓰는 것과, 팀 전체가 시간당 몇 장의 보고서를 뽑는지를 다르게 세는 것과 같은 구분입니다. 보통 초당 토큰(TPS, Tokens per Second) 단위로 재고, 같은 모델이라도 서빙 소프트웨어와 GPU 종류에 따라 100배 이상 벌어집니다. 콜센터 로그 요약처럼 한꺼번에 많이 처리해야 하는 작업에서 운영팀이 가장 먼저 보는 숫자입니다.
같은 인쇄소가 하루에 찍어내는 보고서 총 부수입니다.
vLLM — KV 캐시 낭비를 줄여 throughput 2~4배
UC Berkeley vLLM 팀은 SOSP 2023 논문(arXiv 2309.06180)에서 기존 서빙 시스템이 KV 캐시 메모리의 60~80%를 단편화로 낭비한다는 점을 들어, PagedAttention(가상 메모리 방식 KV 캐시 페이지화)으로 낭비를 4% 미만까지 줄였다고 보고했습니다.[2] 같은 latency 수준에서 throughput이 FasterTransformer·Orca 대비 2~4배 향상됐고, ShareGPT 워크로드에서는 HuggingFace 표준 파이프라인 대비 초당 처리 가능한 요청 수가 2배 이상 늘었습니다.[2] LinkedIn·Uber 등이 운영 환경에서 vLLM을 채택해 사실상 오픈소스 서빙 표준으로 자리잡았습니다.[6]
NVIDIA H200 + TensorRT-LLM — 단일 서버 3만 토큰/초
NVIDIA TensorRT-LLM은 FP8 양자화(가중치를 8비트 부동소수점으로 압축)와 in-flight batching, paged KV 캐시를 결합해 H100 대비 FP16 추론 throughput을 약 2배로 끌어올린다고 공식 문서에 명시합니다.[7] MLPerf Inference v5.1 제출 결과, 8장의 H200을 묶은 단일 서버는 Llama 3.1 70B에서 SGLang v0.4.9로 31,391 tokens/s, vLLM v0.9.2로 26,319 tokens/s를 기록했고, MLPerf v5.0의 H100 최고 기록 대비 11% 개선됐습니다.[8] 같은 GPU 한 대 비교로도 H100 대비 Llama 2 70B throughput이 40% 늘었습니다.[8]
Cerebras·Groq — 전용 칩으로 자릿수 단위 격차
Cerebras는 wafer-scale 칩으로 Llama 3.1 70B를 초당 2,100토큰, 405B 모델을 초당 969토큰으로 돌린다고 공식 발표했습니다.[9][10] Artificial Analysis 독립 측정 기준 Groq의 LPU(Language Processing Unit, 언어 처리 전용 칩)는 Llama 3.3 70B에서 speculative decoding(예측 디코딩)을 적용해 초당 1,665토큰을 기록, speculative decoding 없는 자사 Llama 3.1 70B 대비 6배 이상, 다른 사업자 중앙값 대비 20배 이상 빨랐습니다.[11] 같은 모델·같은 작업이라도 GPU 대신 전용 칩을 선택하는 것만으로 throughput이 한 자릿수에서 두 자릿수 배수까지 벌어지는 구간입니다.[11]
네이버 CLOVA — 한국어 서빙에서 throughput·latency 동시 관리
네이버 CLOVA 엔지니어링 블로그는 HyperCLOVA 서빙 초기 Megatron-LM 프레임워크가 추론에 최적화돼 있지 않아, FP32 연산을 FP16으로 바꾼 것만으로 약 3~4배 빠른 결과를 얻었다고 공개했습니다.[12] 서빙 단에서는 여러 사용자의 요청을 묶는 배칭(batching)으로 GPU 활용도를 높여 전체 throughput을 끌어올리되, 배치를 키울수록 개별 요청의 latency가 늘어나는 트레이드오프를 운영 SLA 안에서 균형 잡는 것이 핵심이라고 정리합니다.[12] 카카오 사례에서는 TensorRT-LLM의 MoE 전용 커널과 FP8 양자화로 GPT-OSS 계열 모델의 서비스 throughput을 끌어올렸다고 NVIDIA 한국어 기술 블로그가 보고했습니다.[13]
- 현재 사용 중인 LLM API 또는 서버의 평균 초당 출력 토큰 수(throughput)를 1주일치 로그에서 산출합니다.
- 작업을 챗 UX(저지연 우선), 배치 추론(고처리량 우선) 중 어디로 분류할지 결정하고 목표 throughput을 명시합니다.
- 자체 서빙이라면 vLLM 또는 SGLang으로 한 번 재배포해 동일 GPU에서의 throughput 변화를 측정합니다.
- batch size를 1·8·32로 바꿔가며 throughput과 P95 latency를 같이 기록해 트레이드오프 표를 만듭니다.
- 분기 1회 Artificial Analysis 리더보드와 MLPerf Inference 결과를 확인해 사업자·인프라 전환 여지를 점검합니다.
throughput은 GPU 종류, 모델 크기, 양자화 정밀도, batch size, 입력·출력 길이의 다섯 변수에 동시에 좌우되어 한 숫자로 모델 성능을 단정하기 어렵습니다.[1][3] Anyscale·BentoML 운영 가이드는 throughput과 latency를 함께 보지 않으면 "사용자 1명이 빠르게 답을 받는 챗 UX"와 "초당 수만 토큰을 뽑는 배치 추론"을 같은 기준으로 비교하게 된다고 경고합니다.[3][4] 서빙 단에서도 prefill 단계는 입력 토큰을 한 번에 처리해 GPU 연산을 채우지만 단건 응답 지연이 커지고, decode 단계는 토큰을 한 개씩 뽑아 단건은 빠르지만 batch가 작으면 GPU가 놀게 되는 비대칭 구조입니다.[5] vLLM 논문은 KV 캐시 메모리 단편화 자체가 throughput의 상한을 만든다고 명시합니다.[2] 즉, throughput 숫자를 비교할 때는 같은 모델·같은 입력·같은 latency SLA 조건이 명시돼야 의미가 있습니다.[1][2]
진화 방향은 세 갈래입니다.
- 서빙 소프트웨어 단에서 vLLM·SGLang·TensorRT-LLM 같은 오픈소스 서버가 PagedAttention·RadixAttention·continuous batching 같은 기법으로 동일 하드웨어에서 throughput을 2~4배 끌어올리는 표준 도구로 자리잡았습니다.[2][5]
- 인프라 단에서 NVIDIA H200·Blackwell, Cerebras wafer-scale, Groq LPU 같은 전용 칩이 GPU 대비 자릿수 단위 throughput을 내면서, MLPerf Inference v5.1 기준 단일 8-GPU 서버가 Llama 3.1 70B에서 3만 tokens/s를 넘는 시대가 됐습니다.[8][9][11]
- 양자화·speculative decoding 같은 알고리즘 최적화가 보편화되면서 Groq는 speculative decoding 하나로 자사 throughput을 6배 끌어올렸고, NVIDIA는 FP8·FP4 양자화로 H100 대비 H200·Blackwell 세대의 throughput을 추가로 두 배씩 늘리고 있습니다.[7][11] 한국어 환경에서는 네이버 CLOVA·카카오가 한국어 토크나이저 최적화와 TensorRT-LLM 적용으로 동일 GPU에서 throughput을 끌어올린 사례를 공개했습니다.[12][13]
- Orca: A Distributed Serving System for Transformer-Based Generative Models — 학술 논문 · USENIX OSDI · 2022
- Comparative Analysis of Large Language Model Inference Serving Systems: A Performance Study of vLLM and HuggingFace TGI — arXiv 논문 · 2025
- New AI Inference Speed Benchmark for Llama 3.3 70B, Powered by Groq — 회사 공식 발표 · Groq · 2024
- Increasing Inference Acceleration of KoGPT with NVIDIA FasterTransformer — 회사 공식 기술 블로그 · NVIDIA Developer · 2022
- Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve — arXiv 논문 · OSDI 2024
- CLOVA Studio 개념 — Exclusive 상품 TPM — 회사 공식 문서 · 네이버 클라우드 · 2025
- Llama 3.1 405B now runs at 969 tokens/s on Cerebras Inference — 회사 공식 발표 · Cerebras · 2024
- SambaNova breaks Llama 3 speed record with 1,000 tokens per second — 회사 공식 발표 · SambaNova · 2024
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.