Latency
레이턴시
AI 모델 운영 분야에서 쓰이는 용어로, 사용자가 LLM에 질문을 보낸 시점부터 첫 응답 글자가 화면에 뜨기까지 걸리는 시간(보통 ms 단위)을 가리키는 성능 지표입니다.
Latency는 LLM(Large Language Model, 거대 언어 모델)에 질문을 보낸 순간부터 첫 글자가 화면에 뜨기까지 걸리는 시간이에요. 카톡에서 "메시지 보냄"을 누르고 상대 화면에 글자가 뜨기까지 잠깐 도는 점선 같은 구간이라고 보면 됩니다. 보통 밀리초(ms) 단위로 재고, 챗 UI에서는 1초 이내가 "즉시 답한다"고 느끼는 기준선입니다. 같은 모델·같은 질문이어도 인프라와 추론 모드 설정에 따라 0.8초가 될 수도, 13초가 될 수도 있어 운영팀이 모델 선택 다음으로 가장 먼저 확인하는 숫자입니다.
견적 요청서를 보내고 첫 답신이 도착하기까지 걸린 시간입니다.
Anthropic Claude — 챗 UX와 모델별 TTFT 격차
Artificial Analysis 2026년 6월 측정 기준, Anthropic 모델 중 가장 빠른 Claude Haiku 4.5의 TTFT는 0.81초, Sonnet 4(비추론)는 1.06초, Opus 4.7(비추론·고난도)은 1.63초입니다.[6] 같은 Opus 4.8을 적응형 추론·최대 노력으로 돌리면 첫 토큰까지 13.71초가 걸려, 모델 선택과 추론 모드 하나로 체감 지연이 15배 이상 벌어집니다.[6] Anthropic 공식 문서는 챗 UX에서 응답이 길어 보일 때 우선 스트리밍과 prompt caching(반복 입력 재사용 캐시)으로 TTFT를 깎으라고 안내합니다.[1]
카카오 카나나 — 카카오톡 트래픽용 저지연 설계
카카오는 자체 LLM 카나나에 MLA(Multi-head Latent Attention, 다중 헤드 잠재 어텐션) 구조를 도입해, 카카오톡 같은 대규모 동시 요청 환경에서 응답 지연을 줄였다고 2025년 공식 발표했습니다.[7] 한국어 전용 토크나이저로 동일 문장의 토큰 수를 약 30% 줄여, 같은 출력 길이라도 생성해야 할 토큰이 줄어드는 만큼 latency도 낮아지는 구조입니다.[7] 네이버 HyperCLOVA X도 한국어 특화 토큰화로 입력 길이를 압축해 추론 비용과 응답 시간을 함께 절감한다고 공식 기술 블로그에서 설명합니다.[8]
음성 에이전트 — sub-1.4초가 깔리지 않으면 대화가 끊김
OpenAI는 2025년 8월 gpt-realtime을 정식 출시하면서, 전통적인 STT→LLM→TTS 파이프라인 대신 단일 모델로 음성을 직접 처리해 지연과 자연스러움을 동시에 잡았다고 발표했습니다.[2] 인간 대화의 자연스러운 화자 전환 간격이 200~500ms 구간이라, 보이스 에이전트는 voice-to-voice(음성 입력에서 음성 응답까지) P50 800ms, P95 1.4초 이내를 운영 목표로 잡습니다.[9] 함수 호출이 끼면 도구 응답 자체가 200ms 안에 끝나도 호출 오버헤드로 400~800ms가 더 붙어, 사용자는 "말을 끊은 듯한 멈춤"을 느낍니다.[9]
배치 추론 — Groq·Cerebras가 보여준 처리량 극한
배치 추론(콜센터 로그 일괄 요약, 문서 임베딩 등)에서는 단건 latency 대신 초당 토큰 처리량(TPS, Tokens per Second)이 핵심 지표가 됩니다. Artificial Analysis 독립 측정 기준 Groq의 LPU(Language Processing Unit, 언어 처리 전용 칩)는 Llama 3.3 70B를 초당 276토큰으로 돌려 당시 벤치마크 대상 사업자 중 1위였습니다.[10] Cerebras는 wafer-scale 칩으로 Llama 3.1 70B에서 초당 2,100토큰을 공식 발표했고, 405B 모델에서도 초당 969토큰을 유지했습니다.[11] 같은 모델·같은 작업이라도 인프라 선택만으로 처리량이 자릿수 단위로 갈리는 구간입니다.[10][11]
- 사용 중인 API의 P50·P95 TTFT를 1주일치 로그에서 뽑아 분포를 확인합니다.
- 스트리밍과 prompt caching을 켜기 전후로 같은 프롬프트의 TTFT를 비교합니다.
- 작업을 챗 UX, 음성 에이전트, 배치 추론 중 어디에 속하는지 분류하고 목표 지연을 명시합니다.
- 음성 워크플로면 voice-to-voice P95 1.4초를 SLA로 적어 도구 호출 예산까지 함께 잡습니다.
- 배치 추론이면 Artificial Analysis 리더보드를 분기 1회 확인해 사업자 변경 여지를 점검합니다.
latency는 모델, 입력 토큰 수, 출력 토큰 수, 인프라 부하의 네 변수에 동시에 좌우되어 한 숫자로 단정하기 어렵습니다.[3] Microsoft Foundry 가이드는 평균값만 보면 P95 구간 사용자가 겪는 멈춤이 가려진다며 P50·P75·P95 백분위 기반 모니터링을 권합니다.[3] 서빙 단에서도 prefill은 GPU 연산을 채우지만 단건 지연이 크고, decode는 단건은 빠르지만 배치를 통해야 처리량이 나오는 비대칭 구조라 batch size를 키울수록 단건 latency가 늘어납니다.[5] arXiv 2309.06180은 KV 캐시 메모리 단편화 자체가 throughput 상한을 만든다고 보고합니다.[4] 즉, "응답이 빠른 모델"을 고르는 일과 "응답이 빠른 서빙 환경"을 만드는 일은 별개의 결정이며, 둘 다 SLA 안에서 동시에 잡아야 사용자 체감이 흔들리지 않습니다.[1][3]
진화 방향은 세 갈래입니다.
- 모델 단에서 Claude Haiku 4.5 같은 저지연 전용 라인이 보편화되어, 같은 회사 안에서도 "빠른 모델/똑똑한 모델" 라인업이 명확히 갈리고 있습니다.[6]
- 서빙 단에서 PagedAttention·Sarathi-Serve 같은 스케줄링 기법으로 동일 지연에서 처리량을 2~4배 늘리는 연구가 표준이 되고 있으며, vLLM 같은 오픈소스 서버가 사실상 업계 기본값으로 자리잡았습니다.[4][5]
- 인프라 단에서 Groq LPU·Cerebras wafer-scale 같은 전용 칩이 GPU 대비 자릿수 단위로 빠른 처리량을 내면서, 모델 선택만큼 인프라 선택이 latency 결정 요인이 되고 있습니다.[10][11] OpenAI는 2025년 8월 음성 단일 모델 gpt-realtime으로 STT·TTS 체이닝의 지연을 구조적으로 제거했고, Anthropic 공식 문서는 prompt caching·streaming을 latency 최적화 1순위 카드로 안내합니다.[1][2]
- 유사 개념Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Benchmark같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
- Reducing latency - Claude API Docs — 공식 문서 · Anthropic
- Introducing gpt-realtime and Realtime API updates for production voice agents — 공식 발표 · OpenAI · 2025.08.28
- Azure OpenAI in Microsoft Foundry Models performance & latency — 공식 문서 · Microsoft Learn
- Efficient Memory Management for Large Language Model Serving with PagedAttention — 학술 논문 · arXiv 2309.06180 (Kwon 외, UC Berkeley, SOSP 2023)
- Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve — 학술 논문 · arXiv 2403.02310 · 2024.03
- Claude 4.5 Haiku / Opus 4.7 / Opus 4.8 — API Provider Performance — 벤치마크 · Artificial Analysis · 2026
- 카카오, 첫 추론 모델 '카나나-2' 오픈 소스 공개 — 권위 매체 · AI타임스 · 2025
- HyperCLOVA X, 한국어에 최적화된 최첨단 AI 모델 — 공식 기술 블로그 · 네이버 CLOVA
- Realtime conversations | OpenAI API — 공식 문서 · OpenAI
- New AI Inference Speed Benchmark for Llama 3.3 70B, Powered by Groq — 공식 발표 · Groq (Artificial Analysis 측정)
- Cerebras Inference now 3x faster: Llama3.1-70B breaks 2,100 tokens/s — 공식 발표 · Cerebras
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.