Token
토큰
AI 기초 분야에서 쓰이는 용어로, LLM이 사람의 문장을 처리할 때 사용하는 최소 단위로, 단어보다 작은 음절이나 조각으로 잘려 모델 입력·출력 길이와 비용을 계산하는 기준이 됩니다.
토큰은 AI 모델이 글을 잘게 잘라서 읽는 "조각 단위"예요. 친구에게 노션 문서를 공유할 때 페이지 수로 분량을 가늠하듯, AI 입장에서는 토큰 수가 곧 분량이자 청구 단위가 됩니다. 영어 "hello"는 1토큰으로 깔끔하게 들어가지만, 한국어 "안녕하세요"는 모델에 따라 5~8토큰으로 잘게 쪼개져서 같은 의미라도 비용이 더 나올 수 있어요. 그래서 ChatGPT API로 졸업 프로젝트를 돌릴 때 "월 $10 예상"이 실제로는 $30 청구되는 일이 생깁니다.
견적서·세금계산서의 "수량" 칸에 들어가는 정산 단위입니다.
OpenAI GPT-4o — API 정산의 표준 단위
OpenAI 공식 가격표 기준 GPT-4o는 입력 100만 토큰당 $2.50, 출력 100만 토큰당 $10.00에 책정되어 있습니다.[6] 사내 문서 요약 봇을 만든다고 가정하면, 한 번 호출에 평균 3,000토큰을 쓰는 워크플로의 월 10만 회 호출 비용은 단순 계산만으로도 약 $750~$3,000 구간에 들어옵니다. 견적서를 짤 때 "사용자 수"가 아니라 "예상 토큰량"으로 환산해야 실제 청구서와 맞물립니다.
한국어 사용자 — 같은 문장에 2~3배 토큰
OpenAI 토크나이저에 한국어 문장을 넣으면 한 음절이 2~3토큰으로 쪼개지는 사례가 보고되어 있습니다.[7] 옥스퍼드 연구를 인용한 국내 보도에 따르면 영어 대비 한국어 사용 시 토큰 환산 비용이 최대 4.2배까지 늘어났습니다.[8] 한국 SaaS 팀이 "월 $400 예상"으로 잡았다가 실제로는 $1,200를 청구받는 패턴이 여기서 발생합니다. RFP 검토용 챗봇을 한국어로 운용한다면 견적서에 언어별 토큰 가중치를 명시하는 적용처가 분명합니다.
Meta Llama 3 — 12만 8천 어휘 토크나이저로 한국어 효율 개선
Meta는 2024년 4월 Llama 3 공식 발표에서 토크나이저 어휘를 Llama 2의 3만 2천에서 12만 8천으로 늘려, 같은 텍스트를 더 적은 토큰으로 표현할 수 있게 했다고 밝혔습니다.[9] 같은 한국어 보고서를 처리할 때 토큰 수 자체가 줄어들면 입력·출력 비용과 응답 지연이 함께 낮아집니다. 업스테이지 Solar Pro 2 역시 한국어 토큰 효율을 1차 KPI로 내세우며 같은 흐름에 합류했습니다.[10] 한국어 비중이 높은 사내 챗봇 운영에서 검토할 적용처가 있습니다.
Anthropic Claude — 200K~1M 컨텍스트의 정산 기준
Anthropic 공식 문서 기준 Claude 3.5 Sonnet은 200K 토큰 컨텍스트를 입력 100만 토큰당 $3, 출력 100만 토큰당 $15에 제공합니다.[5][11] Claude Opus 4 계열은 1M 토큰까지 컨텍스트를 확장해, 사업 검토서 약 200페이지(약 15만 토큰)를 한 번에 넣고 질의하는 워크플로가 단일 호출로 가능해졌습니다.[5] 결재 라인이 긴 보고서나 계약서 묶음을 통째로 검토시키는 적용처에 적합합니다.
- OpenAI 공식 토크나이저(platform.openai.com/tokenizer)에 자주 쓰는 한국어 문장 200자를 붙여 넣어 실제 토큰 수를 확인합니다.
- 같은 문장을 영어로 번역해 다시 측정하고, 한·영 토큰 수 비율을 견적용 메모로 남깁니다.
- 회사에서 가장 자주 호출되는 프롬프트 3개에 대해 평균 입력·출력 토큰을 계산해 월 비용을 추정합니다.
- 컨텍스트가 큰 작업은 200K급(Claude 3.5 Sonnet) 대비 1M급(Claude Opus 4 계열) 단가를 비교해 본문 분할 여부를 결정합니다.
- 한국어 비중이 높다면 동일 작업을 Llama 3·Solar Pro 2 같은 한국어 효율형 모델로 시범 호출해 토큰 사용량·응답 품질을 같은 표에 정리합니다.
토큰은 언어 중립적이지 않습니다. arXiv 논문 「Parity-Aware Byte-Pair Encoding」(2024)은 BPE(Byte-Pair Encoding, 바이트 쌍 부호화)가 영어 등 인도유럽어에 편향되어 비라틴 문자권 사용자가 같은 의미를 표현할 때 토큰을 더 많이 쓰게 된다고 지적합니다.[2] 또한 동일 텍스트라도 모델·토크나이저 버전이 다르면 토큰 수가 달라지므로, 견적서·계약서에 모델명을 함께 명시하지 않으면 정산 분쟁의 빌미가 됩니다. 사용자가 알기 어려운 또 다른 한계는, 같은 단어라도 문장 안 위치에 따라 1토큰이 되기도 하고 2~3토큰으로 쪼개지기도 한다는 점입니다. 보는 시각에 따라 다르지만, 업계에서는 모델별 토크나이저 차이를 사전에 측정해 두는 절차를 표준화하는 흐름이 자리잡고 있습니다.
진화 방향은 세 갈래로 정리됩니다.
- 컨텍스트 윈도우가 200K에서 1M으로 확장되며 토큰을 아끼기 위한 청크 분할 부담이 줄고 있습니다.[5]
- 자국어 토크나이저 개발이 가속화되고 있으며, Meta Llama 3의 12만 8천 어휘 확장과 업스테이지 Solar Pro 2처럼 한국어 토큰 효율을 1차 KPI로 내세우는 모델이 늘고 있습니다.[9][10]
- 멀티모달 토큰화가 도입되며 이미지·오디오·영상도 토큰 시퀀스로 변환돼 같은 정산 체계 안에 들어오는 추세입니다. 현재 시점에서는 "비용 = 토큰 × 단가"라는 등식이 단기간에 사라지지는 않을 것으로 보는 시각이 우세하며, 모델 선택 기준에서 토큰 효율이 가격표 옆자리의 핵심 지표로 굳어지고 있습니다.
- 기반 기술Transformer토큰 시퀀스를 입력받아 처리하는 핵심 구조입니다
- 다음 단계Embedding토큰을 의미 벡터로 변환하는 단계입니다
- 유사 개념Context Window모델이 한 번에 다룰 수 있는 토큰 총량입니다
- 대표 도구Token Cost토큰 수에 따라 API 비용이 결정됩니다
- What are tokens and how to count them — 공식 문서 · OpenAI Help Center · 2024
- Parity-Aware Byte-Pair Encoding — 학술 논문 · arXiv · 2024
- SentencePiece: A simple and language independent subword tokenizer — 학술 논문 · arXiv (Kudo & Richardson) · 2018
- openai/tiktoken — cl100k_base, o200k_base — 공식 리포지토리 · OpenAI GitHub · 2024
- Context windows — Claude API Docs — 공식 문서 · Anthropic · 2025
- OpenAI API Pricing — 공식 가격표 · OpenAI · 2025
- 토큰이란 무엇이며 어떻게 세나요? — 공식 문서 한글판 · OpenAI Help Center · 2024
- 네이버 소장의 챗GPT 견제구 "한글 사용 시 4.2배 추가비용" — 보도 · 여성경제신문 · 2023
- HyperCLOVA X, 한국어에 최적화된 최첨단 AI 모델 — 공식 문서 · 네이버 CLOVA · 2024
- Pricing — Claude API Docs — 공식 가격표 · Anthropic · 2025
- Solar Pro 2 — 한국어 특화 LLM — 공식 발표 · 업스테이지 · 2025
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.