Token Cost
토큰 비용
AI 활용 분야에서 쓰이는 용어로, LLM API 호출 비용이 입력·출력 토큰 수 단위로 청구되는 구조와 그 단가를 일컫는 표현으로, 캐싱·배치·모델 선택으로 절감할 수 있습니다.
Token Cost는 LLM(Large Language Model, 거대 언어 모델) API를 부를 때 "문장을 잘게 쪼갠 토큰 수만큼 돈이 빠져나가는" 종량제 청구 구조예요. 같은 호출이라도 모델이 읽은 입력 토큰과 모델이 적어낸 출력 토큰의 단가가 다르고, 출력이 보통 3~5배 비쌉니다. 인쇄소에 사양서를 맡길 때 "이번 견적은 입력한 원고 분량보다 인쇄해 나온 페이지가 더 큰 비용을 만든다"는 감각과 같아요. API 비용이 예산보다 부풀어 오르는 일이 잦다면, 입력·출력·캐시 세 단가를 따로 보는 습관부터 잡아야 합니다.
프린터 잉크처럼, 한 장 인쇄가 아니라 사용한 잉크량을 청구받는 방식입니다.
대규모 챗봇 운영 — 입력 1 : 출력 3 비율의 청구 구조
일반적인 챗봇은 시스템 프롬프트·검색 문맥·과거 대화로 입력이 길고, 답변은 그보다 짧습니다. Anthropic 공식 워크드 예시는 Claude Haiku 4.5로 평균 약 3,700 토큰짜리 상담 대화 1만 건을 처리할 때 총 비용을 약 $37로 계산해 공개했습니다 [1]. 동일한 부피를 Sonnet 4.6($3 / $15)으로 돌리면 약 3배, Opus 4.7($5 / $25)로 돌리면 약 5배가 됩니다. 같은 트래픽을 운영해도 모델 선택 한 번에 월 청구액이 한 자릿수 배로 갈리는 구조입니다.
에이전트 루프 — 호출 수 × 누적 입력 = 비용 폭증 지점
에이전트는 한 번의 사용자 요청에 도구 호출·관찰 결과 반영·재추론을 10~30회씩 반복합니다. 매 단계마다 시스템 프롬프트와 이전 단계 산출물이 입력에 다시 실립니다. Anthropic 공식 가격 문서가 권장하는 대응이 두 가지입니다.
- 반복되는 시스템 프롬프트와 문맥을 프롬프트 캐싱에 넣어 두 번째 호출부터 0.1배 단가로 읽기.
- 단순 단계는 Haiku, 최종 판단만 Sonnet으로 라우팅하기 [1]. 캐싱은 첫 한 번만 1.25배로 쓰기하면 그다음부터 90% 할인이 누적되므로, 루프가 길수록 절감 폭이 커집니다 [1].
RAG 파이프라인 — 같은 매뉴얼을 매번 다시 넣지 않기
검색 증강 생성(RAG)은 사내 매뉴얼·법령·제품 사양 같은 긴 컨텍스트를 입력에 매번 끼워 넣습니다. 한 보고에서는 1,000 토큰짜리 시스템 프롬프트와 고정 문서를 캐싱으로 전환해 월 청구액을 $720에서 $72로 약 90% 줄인 사례가 정리되어 있습니다 [5]. Anthropic 공식 문서가 안내하는 손익분기점도 명확합니다. 5분 캐시는 한 번만 재사용해도 이득, 1시간 캐시는 두 번 이상 재사용 시 이득입니다 [1]. 매뉴얼이 자주 안 바뀌고 트래픽이 분산된 워크로드에 가장 잘 맞는 패턴입니다.
한국 핀테크 — 한국어 토큰 단가가 영어보다 3배인 점 반영
카카오뱅크는 2025년 5월 국내 금융권 최초로 Azure OpenAI 기반 대화형 AI 검색을 출시했고, 2주 만에 가입자 약 13만 명을 모았습니다 [6]. 같은 의미라도 한국어는 음절당 토큰이 2~3개씩 늘어나 영어 대비 약 3.3배 비싼 청구가 발생한다는 분석이 국내 매체에 보고되어 있습니다 [7]. 따라서 한국어 서비스는 입력가가 낮은 모델(Haiku·Gemini Flash) + 프롬프트 캐싱 + 짧은 응답 양식 강제를 함께 적용해 영어 기준 단가로 환산했을 때의 격차를 메우는 설계가 자주 쓰입니다 [1][4][7].
- 가장 많이 쓰는 모델의 공식 가격 페이지에서 입력·출력·캐시 세 단가를 표로 정리하기 [1][2]
- 지난주 호출 로그에서 평균 입력 토큰·평균 출력 토큰을 뽑아 비용 구조가 입력형인지 출력형인지 분류하기
- 반복되는 시스템 프롬프트·고정 문서가 1,024 토큰을 넘는지 확인하고, 넘으면 캐시 가능 후보로 표시하기 [4]
- Haiku·Flash 같은 저가 모델로 같은 프롬프트를 돌려 품질 차이를 5건만 비교해 라우팅 기준 만들기 [1][3]
- 실시간성이 필요 없는 야간 배치는 Batch API 50% 할인 경로로 옮길 수 있는지 한 줄로 결론 적기 [1]
공식 가격은 자주 바뀝니다. OpenAI는 GPT-4o를 2024년 5월 입력 $5 / 출력 $15로 출시한 뒤 같은 해 10월 $2.50 / $10으로 인하했고, 이후 GPT-4.1을 더 낮은 $2.00 / $8.00으로 책정했습니다 [2]. Anthropic도 Claude Sonnet은 $3 / $15, Haiku는 $1 / $5로 등급별 단가 격차를 유지하면서, 동일 가격대 안에서 매 분기 신규 버전을 출시하고 있습니다 [1]. Andreessen Horowitz의 산업 분석은 동일 성능 기준 추론 비용이 매년 약 10배씩 떨어지고 있다고 정리합니다 [8]. 따라서 6개월 전 견적과 지금 견적은 다른 숫자이며, 발주서·연간 예산서를 짤 때는 공식 가격 페이지에서 직접 확인한 일자·모델·티어를 명시해 두는 운용이 안전합니다.
진화 방향은 세 갈래로 정리됩니다.
- 캐싱·배치·라우팅 같은 "운영 측 할인 레버"가 표준화되고 있습니다. Anthropic은 캐시 히트 0.1배·배치 0.5배가 곱셈으로 쌓이도록 공식화했고 [1], OpenAI는 동일 프리픽스 50% 할인을 코드 변경 없이 자동 적용합니다 [4].
- 같은 모델 안에서도 단가 차이가 큰 "모델 등급화"(Haiku/Sonnet/Opus, Flash/Pro)가 굳어졌습니다 [1][3]. 단순 분류·요약은 저가 등급으로 내려보내고, 최종 판단·민감 결정만 고가 등급으로 올리는 라우팅이 사실상 표준 패턴입니다.
- 한국어처럼 토큰 효율이 낮은 언어 사용자는 토크나이저 자체 개선과 저가 모델 조합으로 격차를 줄이는 방향이 권장됩니다 [7]. Opus 4.7 이후 새 토크나이저는 같은 텍스트에 최대 35% 더 많은 토큰을 쓰기도 한다고 Anthropic 공식 문서가 명시하므로, 모델 업그레이드 시 토큰 수 자체가 늘어날 수 있다는 점을 함께 점검해 두어야 합니다 [1].
- 유사 개념Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- Pricing — 공식 문서 · Anthropic · 2025
- API Pricing — 공식 가격표 · OpenAI
- Gemini Developer API pricing — 공식 가격표 · Google AI for Developers
- Prompt Caching in the API — 공식 발표 · OpenAI · 2024.10.01
- Prompt Caching is a Must! How I Went From Spending $720 to $72 Monthly on API Costs — 실무 사례 보고 · 2024
- 카카오뱅크 'AI검색' 흥행…출시 2주 만 13만명 몰렸다 — 보도 · 머니투데이 · 2025.06.12
- ChatGPT vs Claude, 같은 질문에도 비용이 다른 이유: '토큰' 이해하기 — 산업 인사이트 · 삼성SDS
- Welcome to LLMflation — LLM inference cost is going down fast — 산업 분석 · Andreessen Horowitz · 2024
- Prompt caching — 공식 문서 · Anthropic
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.