프롬프트·AI 활용

Token Cost

토큰 비용

AI 활용 분야에서 쓰이는 용어로, LLM API 호출 비용이 입력·출력 토큰 수 단위로 청구되는 구조와 그 단가를 일컫는 표현으로, 캐싱·배치·모델 선택으로 절감할 수 있습니다.

쉬운 풀이

Token Cost는 LLM(Large Language Model, 거대 언어 모델) API를 부를 때 "문장을 잘게 쪼갠 토큰 수만큼 돈이 빠져나가는" 종량제 청구 구조예요. 같은 호출이라도 모델이 읽은 입력 토큰과 모델이 적어낸 출력 토큰의 단가가 다르고, 출력이 보통 3~5배 비쌉니다. 인쇄소에 사양서를 맡길 때 "이번 견적은 입력한 원고 분량보다 인쇄해 나온 페이지가 더 큰 비용을 만든다"는 감각과 같아요. API 비용이 예산보다 부풀어 오르는 일이 잦다면, 입력·출력·캐시 세 단가를 따로 보는 습관부터 잡아야 합니다.

한 줄 비유

프린터 잉크처럼, 한 장 인쇄가 아니라 사용한 잉크량을 청구받는 방식입니다.

활용 예시

Case 1

대규모 챗봇 운영 — 입력 1 : 출력 3 비율의 청구 구조

일반적인 챗봇은 시스템 프롬프트·검색 문맥·과거 대화로 입력이 길고, 답변은 그보다 짧습니다. Anthropic 공식 워크드 예시는 Claude Haiku 4.5로 평균 약 3,700 토큰짜리 상담 대화 1만 건을 처리할 때 총 비용을 약 $37로 계산해 공개했습니다 ^[1]. 동일한 부피를 Sonnet 4.6($3 / $15)으로 돌리면 약 3배, Opus 4.7($5 / $25)로 돌리면 약 5배가 됩니다. 같은 트래픽을 운영해도 모델 선택 한 번에 월 청구액이 한 자릿수 배로 갈리는 구조입니다.

Case 2

에이전트 루프 — 호출 수 × 누적 입력 = 비용 폭증 지점

에이전트는 한 번의 사용자 요청에 도구 호출·관찰 결과 반영·재추론을 10~30회씩 반복합니다. 매 단계마다 시스템 프롬프트와 이전 단계 산출물이 입력에 다시 실립니다. Anthropic 공식 가격 문서가 권장하는 대응이 두 가지입니다.

반복되는 시스템 프롬프트와 문맥을 프롬프트 캐싱에 넣어 두 번째 호출부터 0.1배 단가로 읽기.
단순 단계는 Haiku, 최종 판단만 Sonnet으로 라우팅하기 ^[1]. 캐싱은 첫 한 번만 1.25배로 쓰기하면 그다음부터 90% 할인이 누적되므로, 루프가 길수록 절감 폭이 커집니다 ^[1].

Case 3

RAG 파이프라인 — 같은 매뉴얼을 매번 다시 넣지 않기

검색 증강 생성(RAG)은 사내 매뉴얼·법령·제품 사양 같은 긴 컨텍스트를 입력에 매번 끼워 넣습니다. 한 보고에서는 1,000 토큰짜리 시스템 프롬프트와 고정 문서를 캐싱으로 전환해 월 청구액을 $720에서 $72로 약 90% 줄인 사례가 정리되어 있습니다 ^[5]. Anthropic 공식 문서가 안내하는 손익분기점도 명확합니다. 5분 캐시는 한 번만 재사용해도 이득, 1시간 캐시는 두 번 이상 재사용 시 이득입니다 ^[1]. 매뉴얼이 자주 안 바뀌고 트래픽이 분산된 워크로드에 가장 잘 맞는 패턴입니다.

Case 4

한국 핀테크 — 한국어 토큰 단가가 영어보다 3배인 점 반영

카카오뱅크는 2025년 5월 국내 금융권 최초로 Azure OpenAI 기반 대화형 AI 검색을 출시했고, 2주 만에 가입자 약 13만 명을 모았습니다 ^[6]. 같은 의미라도 한국어는 음절당 토큰이 2~3개씩 늘어나 영어 대비 약 3.3배 비싼 청구가 발생한다는 분석이 국내 매체에 보고되어 있습니다 ^[7]. 따라서 한국어 서비스는 입력가가 낮은 모델(Haiku·Gemini Flash) + 프롬프트 캐싱 + 짧은 응답 양식 강제를 함께 적용해 영어 기준 단가로 환산했을 때의 격차를 메우는 설계가 자주 쓰입니다 ^[1][4][7].

참고사항

가장 많이 쓰는 모델의 공식 가격 페이지에서 입력·출력·캐시 세 단가를 표로 정리하기 ^[1][2]
지난주 호출 로그에서 평균 입력 토큰·평균 출력 토큰을 뽑아 비용 구조가 입력형인지 출력형인지 분류하기
반복되는 시스템 프롬프트·고정 문서가 1,024 토큰을 넘는지 확인하고, 넘으면 캐시 가능 후보로 표시하기 ^[4]
Haiku·Flash 같은 저가 모델로 같은 프롬프트를 돌려 품질 차이를 5건만 비교해 라우팅 기준 만들기 ^[1][3]
실시간성이 필요 없는 야간 배치는 Batch API 50% 할인 경로로 옮길 수 있는지 한 줄로 결론 적기 ^[1]

공식 가격은 자주 바뀝니다. OpenAI는 GPT-4o를 2024년 5월 입력 $5 / 출력 $15로 출시한 뒤 같은 해 10월 $2.50 / $10으로 인하했고, 이후 GPT-4.1을 더 낮은 $2.00 / $8.00으로 책정했습니다 ^[2]. Anthropic도 Claude Sonnet은 $3 / $15, Haiku는 $1 / $5로 등급별 단가 격차를 유지하면서, 동일 가격대 안에서 매 분기 신규 버전을 출시하고 있습니다 ^[1]. Andreessen Horowitz의 산업 분석은 동일 성능 기준 추론 비용이 매년 약 10배씩 떨어지고 있다고 정리합니다 ^[8]. 따라서 6개월 전 견적과 지금 견적은 다른 숫자이며, 발주서·연간 예산서를 짤 때는 공식 가격 페이지에서 직접 확인한 일자·모델·티어를 명시해 두는 운용이 안전합니다.

진화 방향은 세 갈래로 정리됩니다.

캐싱·배치·라우팅 같은 "운영 측 할인 레버"가 표준화되고 있습니다. Anthropic은 캐시 히트 0.1배·배치 0.5배가 곱셈으로 쌓이도록 공식화했고 ^[1], OpenAI는 동일 프리픽스 50% 할인을 코드 변경 없이 자동 적용합니다 ^[4].
같은 모델 안에서도 단가 차이가 큰 "모델 등급화"(Haiku/Sonnet/Opus, Flash/Pro)가 굳어졌습니다 ^[1][3]. 단순 분류·요약은 저가 등급으로 내려보내고, 최종 판단·민감 결정만 고가 등급으로 올리는 라우팅이 사실상 표준 패턴입니다.
한국어처럼 토큰 효율이 낮은 언어 사용자는 토크나이저 자체 개선과 저가 모델 조합으로 격차를 줄이는 방향이 권장됩니다 ^[7]. Opus 4.7 이후 새 토크나이저는 같은 텍스트에 최대 35% 더 많은 토큰을 쓰기도 한다고 Anthropic 공식 문서가 명시하므로, 모델 업그레이드 시 토큰 수 자체가 늘어날 수 있다는 점을 함께 점검해 두어야 합니다 ^[1].

이 용어와의 관계

유사 개념
Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.