Context Window
컨텍스트 윈도우
AI 활용 분야에서 쓰이는 용어로, LLM이 한 번의 대화·요청에서 동시에 기억하고 처리할 수 있는 입력과 출력의 최대 토큰 수를 가리키며, 긴 문서 분석·코드 베이스 이해의 한계를 결정합니다.
컨텍스트 윈도우(context window)는 AI가 한 번의 대화에서 "한꺼번에 펼쳐 놓고 읽을 수 있는 자료의 분량 상한"이에요. 토큰은 모델이 글자를 잘게 쪼개 다루는 단위인데, 영어는 단어 한 개, 한국어는 글자 한두 개가 1토큰 정도예요. 조별 과제로 200쪽짜리 자료집을 한 번에 다 외워서 답해야 한다고 생각하면, 머리에 들어올 분량부터 정해두는 셈입니다. 이 한계를 넘기면 앞부분을 잊어버리거나 답이 끊기기 때문에, AI를 업무에 쓸 때 가장 먼저 확인해야 하는 숫자예요.
한 번의 회의에서 책상 위에 펼쳐놓을 수 있는 자료 총량입니다.
Google Gemini 1.5 Pro — 책 1,500 페이지 분량을 한 번에
Google AI for Developers 공식 문서에 따르면 Gemini 1.5 Pro는 100만 토큰을 처음으로 안정적으로 처리한 대규모 파운데이션 모델입니다. 100만 토큰은 영어 텍스트 약 1,500 페이지, 코드 약 5만 줄, 평균 길이 영어 소설 8권 분량에 해당합니다 [1]. 2024년 5월 Google Developers Blog 한국어판은 Gemini 1.5 Pro의 200만 토큰 윈도우를 모든 개발자에게 개방한다고 공지했고 [5], 사내 코드 리뷰·법무 검토 같은 장문 업무에서 RAG 없이 자료 전체를 일괄 투입하는 방식이 새로 열렸습니다 [1].
Anthropic Claude 2.1 — 500쪽 문서 통째 질의응답
Anthropic은 2023년 11월 Claude 2.1을 공개하며 20만 토큰 컨텍스트 윈도우를 업계 최초로 제공했습니다. 공식 발표 기준 약 15만 단어, 500쪽 이상 분량으로, 사용자는 코드베이스 전체나 S-1 같은 재무 서류, 『일리아드』 같은 장편을 통째로 올려 요약·비교·Q&A를 시킬 수 있습니다 [2]. 기존에 사람이 몇 시간 걸리던 작업을 모델이 몇 분에 처리하는 변화입니다 [2].
xAI Grok 4 Fast — 200만 토큰을 저단가로
xAI는 2025년 9월 19일 Grok 4 Fast 출시 공식 발표에서 reasoning·non-reasoning 두 변형 모두 200만 토큰 컨텍스트를 지원한다고 밝혔습니다. API 단가는 128K 이하 입력 100만 토큰당 $0.20, 128K 초과 시 $0.40로 책정돼 장문 처리에 드는 비용 부담을 낮췄습니다 [3]. 같은 벤치마크 성능을 내는 데 Grok 4 대비 가격이 약 98% 줄었다는 자체 분석이 함께 공개됐습니다 [3].
학계 — Longformer가 장문맥 토대를 깔다
Allen Institute의 Iz Beltagy 등이 2020년 arXiv에 발표한 Longformer 논문(2004.05150)은 자기주의(self-attention) 연산이 길이의 제곱으로 늘어나는 한계를 지적하고, 길이에 선형적으로 늘어나는 어텐션 구조를 제안했습니다 [6]. 이 연구는 수천 토큰 이상의 문서를 처리하는 후속 장문맥 모델들의 기반이 됐고, WikiHop·TriviaQA 같은 장문 QA 벤치마크에서 RoBERTa를 능가하는 결과를 보였습니다 [6].
- 사용하는 모델의 공식 문서에서 컨텍스트 윈도우 토큰 수를 확인합니다 [1][7]
- 200K·1M·2M 토큰이 각각 몇 쪽·몇 줄·몇 분 분량인지 환산해둡니다 [1][2]
- 보고서·계약서 한 건을 통째로 넣고 요약·쟁점 추출을 시켜봅니다
- 같은 자료를 RAG로 잘라 넣었을 때와 결과·비용을 비교합니다 [1]
- 장문 입력을 반복 사용한다면 컨텍스트 캐싱 적용 여부를 확인합니다 [1]
Google AI for Developers 공식 문서는 단일 정보를 찾는 "건초 더미 속 바늘 찾기"(needle in a haystack) 평가에서는 99% 이상 정확도가 나오지만, 찾아야 할 정보가 여러 개로 늘어나면 정확도가 떨어진다고 명시합니다 [1]. 토큰을 더 넣을수록 응답의 첫 토큰 지연(latency)도 늘어나고, 동일 자료를 반복 질의하면 입력 토큰 비용이 누적됩니다 [1]. arXiv 연구들도 대부분의 장문맥 모델이 3만 2천 토큰을 넘어서면 성능이 가파르게 떨어진다고 보고합니다 [6]. 윈도우가 커진다고 한국어 토큰 효율이 좋아지는 것은 아니어서, 영어 대비 같은 의미에 2~3배 더 많은 토큰이 들어간다는 점도 함께 고려해야 합니다 [7]. 단순히 길게 넣을 수 있다는 사양만 보고 모든 자료를 통째로 투입하면 비용·지연·정확도 셋 모두에서 손해를 보기 쉽다는 점은 운영팀이 가장 자주 놓치는 함정입니다 [1].
진화 방향은 두 갈래입니다. 모델 쪽에서는 윈도우 자체가 4K(GPT-3, 2020) → 100K(Claude 2, 2023) → 1M(Gemini 1.5, 2024) → 2M(Grok 4 Fast, 2025)으로 확장 중이고, Anthropic은 2026년 3월 Claude Opus 4.6·Sonnet 4.6의 100만 토큰 윈도우를 표준 단가로 일반 공개해 장문 프리미엄 요금을 없앴습니다 [4]. 사용 쪽에서는 컨텍스트 캐싱이 표준으로 자리잡고 있는데, Google 공식 문서는 같은 자료를 반복 활용할 때 입출력 단가를 4분의 1 수준까지 낮출 수 있다고 안내합니다 [1]. 한국에서는 인공지능신문 등 권위 매체가 Gemini 100만 토큰 모델 공개 시점부터 "차세대 모델"이라는 표현으로 다뤘고 [8], 사내 코드 리뷰·법무 검토·장기간 고객 상담 로그 분석처럼 RAG 단독으로는 어려웠던 워크로드가 "통째로 투입 + 캐싱" 조합으로 옮겨가는 흐름이 뚜렷합니다 [1][4]. 운영팀은 윈도우 사양만 보지 않고, 같은 모델의 needle-in-a-haystack 평가 점수와 캐싱 단가표를 함께 확인하는 절차를 표준 체크리스트로 두고 있습니다 [1][7].
- 기반 기술Token컨텍스트 윈도우는 토큰 단위로 측정됩니다
- 유사 개념Max Tokens출력 길이를 제한하는 짝꿍 파라미터
- 다음 단계Prompt Caching긴 컨텍스트를 반복 활용할 때 비용 절감
- 대체 전략RAG컨텍스트가 부족할 때 외부 검색으로 보완
- Long context | Gemini API — 공식 문서 · Google AI for Developers · 2026.01
- Introducing Claude 2.1 — 공식 발표 · Anthropic · 2023.11.21
- Grok 4 Fast — 공식 발표 · xAI · 2025.09.19
- Anthropic makes a pricing change that matters for Claude's longest prompts — 산업 매체 보도 · The New Stack · 2026.03
- Gemini 1.5 Pro 2M 컨텍스트 윈도우 출시 — 공식 블로그 · Google Developers Blog (한국어) · 2024.06
- Longformer: The Long-Document Transformer — 학술 논문 · arXiv 2004.05150 · 2020.04
- Context windows - Claude API Docs — 공식 문서 · Anthropic
- 구글, '제미나이' 100만 토큰 컨텍스트 창 차세대 모델 — 권위 매체 · 인공지능신문
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.