기본

Inference

인퍼런스

AI 모델 운영 분야에서 쓰이는 용어로, 이미 학습이 끝난 모델이 실제 입력을 받아 결과를 계산해 돌려주는 단계를 가리키며, 사용자가 ChatGPT 같은 서비스에서 답을 받는 순간이 모두 추론입니다.

쉬운 풀이

공부는 끝낸 친구가 시험장에 들어가 실제 문제를 풀어 답을 내놓는 그 순간이 바로 추론이에요. 학습이 한 학기 내내 교재를 외우는 단계라면, 추론은 그 친구가 시험지를 받아 한 문제씩 답을 적어 내려가는 단계입니다. ChatGPT에 질문을 보냈을 때 답이 한 글자씩 흘러나오는 그 몇 초 동안 GPU 안에서 일어나는 일이 추론이에요. 학습은 한 번만 하면 되지만 추론은 사용자가 누를 때마다 다시 일어나기 때문에, 회사 입장에서는 매달 빠져나가는 운영비가 됩니다.

한 줄 비유

학습이 신입사원 교육이라면, 추론은 그 사원이 실제 고객을 응대하는 시간입니다.

활용 예시

Case 1

OpenAI ChatGPT — 응답 1건당 0.34Wh, 주간 사용자 8억 명 누적 부담

샘 알트먼은 2025년 6월 공식 블로그에서 ChatGPT 평균 1회 응답이 전력 0.34Wh, 물 0.000085갤런을 소비한다고 공개했습니다 ^[2]. 오븐을 1초 켜는 정도지만, 주간 활성 사용자 8억 명이 던지는 수십억 건이 누적되면 OpenAI의 추론 운영비는 GPT-4 학습 비용을 분기마다 추월한다는 분석이 나옵니다. 알트먼은 같은 글에서 "주어진 지능 수준을 쓰는 비용이 12개월마다 약 10배씩 떨어지고 있다"고 밝혔습니다 ^[2]. 사내 LLM 서비스를 설계할 때 학습 비용보다 누적 추론 비용을 먼저 계산해야 한다는 신호입니다.

Case 2

네이버클라우드 — 하이퍼클로바X, B200 4,000장으로 추론 인프라 재편

전자신문(2026년 5월) 보도에 따르면 네이버클라우드는 2026년 초 NVIDIA Blackwell B200 약 4,000장 규모의 클러스터를 구축했고, 하이퍼클로바X 운영에서 "워크로드별 모델 분리와 추론 비용 절감"을 핵심 과제로 잡았습니다 ^[3]. 한국 정부는 같은 흐름에서 네이버·NHN·카카오 3사에 1조 4,600억 원, GPU 1만 3,000장을 배정해 국가 단위 추론 인프라를 구축 중이라고 ZDNet Korea(2025년 7월)가 전했습니다 ^[4]. 사내 한국어 챗봇·검색 서비스 사업자를 정할 때 어느 사업자가 어떤 칩에 붙어 있는지가 응답 지연·월 비용을 좌우합니다.

Case 3

Groq LPU — Llama 3.3 70B에서 사용자당 276 TPS, 동일 모델 6배 격차

Artificial Analysis 독립 벤치마크 기준, Groq LPU는 Llama 3.3 70B에서 사용자당 276 TPS(초당 토큰 수)를 기록해 모든 사업자 중 1위였습니다 ^[5]. 같은 모델을 Fireworks는 145 TPS, Together AI는 45 TPS로 서빙해 사업자 간 6배 격차가 생깁니다. SemiAnalysis InferenceX(2026년 4월)는 NVIDIA B200이 GPT-OSS-120B 추론을 100만 토큰당 $0.02에 처리한다고 발표했고, 같은 워크로드에서 H100은 $0.09로 약 4.5배 비쌌습니다 ^[6]. 실시간 음성·코드 자동완성처럼 지연 시간이 매출을 가르는 워크로드에 우선 적용할 수 있습니다.

Case 4

Apple Intelligence — 3B 온디바이스 모델, 응답 지연 20ms 이하

Apple은 2024년 WWDC에서 Apple Intelligence의 핵심 기능 대부분을 약 3B 파라미터 모델로 기기 내에서 처리한다고 발표했고, 복잡한 요청만 Private Cloud Compute로 보냅니다 ^[7]. Qualcomm Snapdragon 8 Gen 4는 단말에서 60 TOPS 연산을 제공하며 양자화된 LLM을 초당 약 70토큰으로 돌립니다. 업계 분석은 60~80%의 LLM 요청을 온디바이스로 보내면 응답 지연이 20ms 이하로 떨어지고 클라우드 추론 비용이 크게 줄어든다고 보고합니다 ^[7]. 사내 모바일 앱·노트북 클라이언트가 있는 사업자라면 하이브리드 추론 설계가 표준 옵션이 되고 있습니다.

참고사항

사내에서 가장 자주 쓰이는 LLM API 호출 한 건의 인풋·아웃풋 토큰 수를 콘솔 로그에서 확인합니다.
같은 프롬프트를 GPT-4o와 GPT-4o-mini로 각각 호출해 응답 시간(ms)과 토큰당 가격을 함께 기록합니다.
Artificial Analysis 사이트에서 자사가 쓰는 모델의 TPS·TTFT·1M 토큰 가격을 사업자별로 메모합니다.
월간 추론 비용 = 일평균 요청 수 × 평균 토큰 × 1M 토큰 단가 공식으로 시트에 견적을 만듭니다.
응답 속도 우선과 비용 우선 두 가지 시나리오로 다음 분기 추론 인프라 운영안을 한 장으로 정리합니다.

추론은 학습과 달리 멈출 수 없는 변동비입니다. arXiv vLLM 논문(Kwon 외, 2023)은 KV 캐시 메모리가 단편화되면 GPU 메모리의 60~80%가 낭비된다고 보고했고, 이를 해결한 PagedAttention 기법으로도 기존 시스템(FasterTransformer, Orca) 대비 처리량 개선은 2~4배에 그쳤습니다 ^[1]. 같은 모델을 돌려도 사업자별 처리량 격차가 큽니다. Artificial Analysis 기준 Llama 3.3 70B는 Groq 276 TPS, Fireworks 145 TPS, Together AI 45 TPS로 6배 이상 벌어집니다 ^[5]. 즉 "어느 사업자·어느 칩에 붙을 것인가"가 응답 지연·월간 비용·서비스 가용성을 동시에 결정합니다. 알트먼이 공개한 0.34Wh / 응답은 작아 보이지만 주간 활성 사용자 8억 명 규모에서는 데이터센터 전력·물 사용으로 누적되어 ESG 보고서까지 영향을 미칩니다 ^[2].

진화 방향은 크게 세 갈래입니다.

전용 추론 칩 경쟁이 단가를 빠르게 끌어내리고 있습니다. SemiAnalysis InferenceX(2026년 4월) 기준 B200은 GPT-OSS-120B를 1M 토큰당 $0.02에 처리해 H100($0.09) 대비 4.5배 저렴해졌고, 알트먼은 "지능 1단위당 비용이 12개월마다 약 10배 하락 중"이라고 밝혔습니다 ^[2][6].
Apple Intelligence(3B 온디바이스)·Samsung Galaxy AI처럼 단말에서 추론을 끝내는 하이브리드 구조가 표준 옵션이 되고 있습니다. Snapdragon 8 Gen 4의 60 TOPS, 단말 70 TPS는 클라우드 호출 60~80%를 흡수해 응답 지연을 20ms 이하로 끌어내립니다 ^[7].
국가 단위 추론 인프라 투자가 본격화되고 있습니다. 한국 정부는 2025년 네이버·NHN·카카오 3사에 1조 4,600억 원·GPU 1만 3,000장을 배정해 공공 추론 클러스터를 구축 중이며, 네이버클라우드는 B200 약 4,000장으로 하이퍼클로바X 추론 비용 절감을 핵심 과제로 잡았습니다 ^[3][4].

이 용어와의 관계

유사 개념
Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.