기본

Token

토큰

AI 기초 분야에서 쓰이는 용어로, LLM이 사람의 문장을 처리할 때 사용하는 최소 단위로, 단어보다 작은 음절이나 조각으로 잘려 모델 입력·출력 길이와 비용을 계산하는 기준이 됩니다.

쉬운 풀이

토큰은 AI 모델이 글을 잘게 잘라서 읽는 "조각 단위"예요. 친구에게 노션 문서를 공유할 때 페이지 수로 분량을 가늠하듯, AI 입장에서는 토큰 수가 곧 분량이자 청구 단위가 됩니다. 영어 "hello"는 1토큰으로 깔끔하게 들어가지만, 한국어 "안녕하세요"는 모델에 따라 5~8토큰으로 잘게 쪼개져서 같은 의미라도 비용이 더 나올 수 있어요. 그래서 ChatGPT API로 졸업 프로젝트를 돌릴 때 "월 $10 예상"이 실제로는 $30 청구되는 일이 생깁니다.

한 줄 비유

견적서·세금계산서의 "수량" 칸에 들어가는 정산 단위입니다.

활용 예시

Case 1

OpenAI GPT-4o — API 정산의 표준 단위

OpenAI 공식 가격표 기준 GPT-4o는 입력 100만 토큰당 $2.50, 출력 100만 토큰당 $10.00에 책정되어 있습니다.^[6] 사내 문서 요약 봇을 만든다고 가정하면, 한 번 호출에 평균 3,000토큰을 쓰는 워크플로의 월 10만 회 호출 비용은 단순 계산만으로도 약 $750~$3,000 구간에 들어옵니다. 견적서를 짤 때 "사용자 수"가 아니라 "예상 토큰량"으로 환산해야 실제 청구서와 맞물립니다.

Case 2

한국어 사용자 — 같은 문장에 2~3배 토큰

OpenAI 토크나이저에 한국어 문장을 넣으면 한 음절이 2~3토큰으로 쪼개지는 사례가 보고되어 있습니다.^[7] 옥스퍼드 연구를 인용한 국내 보도에 따르면 영어 대비 한국어 사용 시 토큰 환산 비용이 최대 4.2배까지 늘어났습니다.^[8] 한국 SaaS 팀이 "월 $400 예상"으로 잡았다가 실제로는 $1,200를 청구받는 패턴이 여기서 발생합니다. RFP 검토용 챗봇을 한국어로 운용한다면 견적서에 언어별 토큰 가중치를 명시하는 적용처가 분명합니다.

Case 3

Meta Llama 3 — 12만 8천 어휘 토크나이저로 한국어 효율 개선

Meta는 2024년 4월 Llama 3 공식 발표에서 토크나이저 어휘를 Llama 2의 3만 2천에서 12만 8천으로 늘려, 같은 텍스트를 더 적은 토큰으로 표현할 수 있게 했다고 밝혔습니다.^[9] 같은 한국어 보고서를 처리할 때 토큰 수 자체가 줄어들면 입력·출력 비용과 응답 지연이 함께 낮아집니다. 업스테이지 Solar Pro 2 역시 한국어 토큰 효율을 1차 KPI로 내세우며 같은 흐름에 합류했습니다.^[10] 한국어 비중이 높은 사내 챗봇 운영에서 검토할 적용처가 있습니다.

Case 4

Anthropic Claude — 200K~1M 컨텍스트의 정산 기준

Anthropic 공식 문서 기준 Claude 3.5 Sonnet은 200K 토큰 컨텍스트를 입력 100만 토큰당 $3, 출력 100만 토큰당 $15에 제공합니다.^[5][11] Claude Opus 4 계열은 1M 토큰까지 컨텍스트를 확장해, 사업 검토서 약 200페이지(약 15만 토큰)를 한 번에 넣고 질의하는 워크플로가 단일 호출로 가능해졌습니다.^[5] 결재 라인이 긴 보고서나 계약서 묶음을 통째로 검토시키는 적용처에 적합합니다.

참고사항

OpenAI 공식 토크나이저(platform.openai.com/tokenizer)에 자주 쓰는 한국어 문장 200자를 붙여 넣어 실제 토큰 수를 확인합니다.
같은 문장을 영어로 번역해 다시 측정하고, 한·영 토큰 수 비율을 견적용 메모로 남깁니다.
회사에서 가장 자주 호출되는 프롬프트 3개에 대해 평균 입력·출력 토큰을 계산해 월 비용을 추정합니다.
컨텍스트가 큰 작업은 200K급(Claude 3.5 Sonnet) 대비 1M급(Claude Opus 4 계열) 단가를 비교해 본문 분할 여부를 결정합니다.
한국어 비중이 높다면 동일 작업을 Llama 3·Solar Pro 2 같은 한국어 효율형 모델로 시범 호출해 토큰 사용량·응답 품질을 같은 표에 정리합니다.

토큰은 언어 중립적이지 않습니다. arXiv 논문 「Parity-Aware Byte-Pair Encoding」(2024)은 BPE(Byte-Pair Encoding, 바이트 쌍 부호화)가 영어 등 인도유럽어에 편향되어 비라틴 문자권 사용자가 같은 의미를 표현할 때 토큰을 더 많이 쓰게 된다고 지적합니다.^[2] 또한 동일 텍스트라도 모델·토크나이저 버전이 다르면 토큰 수가 달라지므로, 견적서·계약서에 모델명을 함께 명시하지 않으면 정산 분쟁의 빌미가 됩니다. 사용자가 알기 어려운 또 다른 한계는, 같은 단어라도 문장 안 위치에 따라 1토큰이 되기도 하고 2~3토큰으로 쪼개지기도 한다는 점입니다. 보는 시각에 따라 다르지만, 업계에서는 모델별 토크나이저 차이를 사전에 측정해 두는 절차를 표준화하는 흐름이 자리잡고 있습니다.

진화 방향은 세 갈래로 정리됩니다.

컨텍스트 윈도우가 200K에서 1M으로 확장되며 토큰을 아끼기 위한 청크 분할 부담이 줄고 있습니다.^[5]
자국어 토크나이저 개발이 가속화되고 있으며, Meta Llama 3의 12만 8천 어휘 확장과 업스테이지 Solar Pro 2처럼 한국어 토큰 효율을 1차 KPI로 내세우는 모델이 늘고 있습니다.^[9][10]
멀티모달 토큰화가 도입되며 이미지·오디오·영상도 토큰 시퀀스로 변환돼 같은 정산 체계 안에 들어오는 추세입니다. 현재 시점에서는 "비용 = 토큰 × 단가"라는 등식이 단기간에 사라지지는 않을 것으로 보는 시각이 우세하며, 모델 선택 기준에서 토큰 효율이 가격표 옆자리의 핵심 지표로 굳어지고 있습니다.

흐름

2016

BPE·WordPiece

단어를 부분 단위로 쪼개 미등록어 문제를 해결합니다.

2018

SentencePiece

언어 독립적 서브워드 토크나이저로 다국어 학습을 표준화합니다.

2022

tiktoken

OpenAI가 GPT 계열용 고속 BPE 토크나이저를 공개합니다.

2024—

멀티모달 토큰화

이미지·오디오·비디오를 토큰 시퀀스로 통합 처리합니다.

이 용어와의 관계

기반 기술
Transformer토큰 시퀀스를 입력받아 처리하는 핵심 구조입니다
다음 단계
Embedding토큰을 의미 벡터로 변환하는 단계입니다
유사 개념
Context Window모델이 한 번에 다룰 수 있는 토큰 총량입니다
대표 도구
Token Cost토큰 수에 따라 API 비용이 결정됩니다