기본

Context Window

컨텍스트 윈도우

AI 활용 분야에서 쓰이는 용어로, LLM이 한 번의 대화·요청에서 동시에 기억하고 처리할 수 있는 입력과 출력의 최대 토큰 수를 가리키며, 긴 문서 분석·코드 베이스 이해의 한계를 결정합니다.

쉬운 풀이

컨텍스트 윈도우(context window)는 AI가 한 번의 대화에서 "한꺼번에 펼쳐 놓고 읽을 수 있는 자료의 분량 상한"이에요. 토큰은 모델이 글자를 잘게 쪼개 다루는 단위인데, 영어는 단어 한 개, 한국어는 글자 한두 개가 1토큰 정도예요. 조별 과제로 200쪽짜리 자료집을 한 번에 다 외워서 답해야 한다고 생각하면, 머리에 들어올 분량부터 정해두는 셈입니다. 이 한계를 넘기면 앞부분을 잊어버리거나 답이 끊기기 때문에, AI를 업무에 쓸 때 가장 먼저 확인해야 하는 숫자예요.

한 줄 비유

한 번의 회의에서 책상 위에 펼쳐놓을 수 있는 자료 총량입니다.

활용 예시

Case 1

Google Gemini 1.5 Pro — 책 1,500 페이지 분량을 한 번에

Google AI for Developers 공식 문서에 따르면 Gemini 1.5 Pro는 100만 토큰을 처음으로 안정적으로 처리한 대규모 파운데이션 모델입니다. 100만 토큰은 영어 텍스트 약 1,500 페이지, 코드 약 5만 줄, 평균 길이 영어 소설 8권 분량에 해당합니다 ^[1]. 2024년 5월 Google Developers Blog 한국어판은 Gemini 1.5 Pro의 200만 토큰 윈도우를 모든 개발자에게 개방한다고 공지했고 ^[5], 사내 코드 리뷰·법무 검토 같은 장문 업무에서 RAG 없이 자료 전체를 일괄 투입하는 방식이 새로 열렸습니다 ^[1].

Case 2

Anthropic Claude 2.1 — 500쪽 문서 통째 질의응답

Anthropic은 2023년 11월 Claude 2.1을 공개하며 20만 토큰 컨텍스트 윈도우를 업계 최초로 제공했습니다. 공식 발표 기준 약 15만 단어, 500쪽 이상 분량으로, 사용자는 코드베이스 전체나 S-1 같은 재무 서류, 『일리아드』 같은 장편을 통째로 올려 요약·비교·Q&A를 시킬 수 있습니다 ^[2]. 기존에 사람이 몇 시간 걸리던 작업을 모델이 몇 분에 처리하는 변화입니다 ^[2].

Case 3

xAI Grok 4 Fast — 200만 토큰을 저단가로

xAI는 2025년 9월 19일 Grok 4 Fast 출시 공식 발표에서 reasoning·non-reasoning 두 변형 모두 200만 토큰 컨텍스트를 지원한다고 밝혔습니다. API 단가는 128K 이하 입력 100만 토큰당 $0.20, 128K 초과 시 $0.40로 책정돼 장문 처리에 드는 비용 부담을 낮췄습니다 ^[3]. 같은 벤치마크 성능을 내는 데 Grok 4 대비 가격이 약 98% 줄었다는 자체 분석이 함께 공개됐습니다 ^[3].

Case 4

학계 — Longformer가 장문맥 토대를 깔다

Allen Institute의 Iz Beltagy 등이 2020년 arXiv에 발표한 Longformer 논문(2004.05150)은 자기주의(self-attention) 연산이 길이의 제곱으로 늘어나는 한계를 지적하고, 길이에 선형적으로 늘어나는 어텐션 구조를 제안했습니다 ^[6]. 이 연구는 수천 토큰 이상의 문서를 처리하는 후속 장문맥 모델들의 기반이 됐고, WikiHop·TriviaQA 같은 장문 QA 벤치마크에서 RoBERTa를 능가하는 결과를 보였습니다 ^[6].

참고사항

사용하는 모델의 공식 문서에서 컨텍스트 윈도우 토큰 수를 확인합니다 ^[1][7]
200K·1M·2M 토큰이 각각 몇 쪽·몇 줄·몇 분 분량인지 환산해둡니다 ^[1][2]
보고서·계약서 한 건을 통째로 넣고 요약·쟁점 추출을 시켜봅니다
같은 자료를 RAG로 잘라 넣었을 때와 결과·비용을 비교합니다 ^[1]
장문 입력을 반복 사용한다면 컨텍스트 캐싱 적용 여부를 확인합니다 ^[1]

Google AI for Developers 공식 문서는 단일 정보를 찾는 "건초 더미 속 바늘 찾기"(needle in a haystack) 평가에서는 99% 이상 정확도가 나오지만, 찾아야 할 정보가 여러 개로 늘어나면 정확도가 떨어진다고 명시합니다 ^[1]. 토큰을 더 넣을수록 응답의 첫 토큰 지연(latency)도 늘어나고, 동일 자료를 반복 질의하면 입력 토큰 비용이 누적됩니다 ^[1]. arXiv 연구들도 대부분의 장문맥 모델이 3만 2천 토큰을 넘어서면 성능이 가파르게 떨어진다고 보고합니다 ^[6]. 윈도우가 커진다고 한국어 토큰 효율이 좋아지는 것은 아니어서, 영어 대비 같은 의미에 2~3배 더 많은 토큰이 들어간다는 점도 함께 고려해야 합니다 ^[7]. 단순히 길게 넣을 수 있다는 사양만 보고 모든 자료를 통째로 투입하면 비용·지연·정확도 셋 모두에서 손해를 보기 쉽다는 점은 운영팀이 가장 자주 놓치는 함정입니다 ^[1].

진화 방향은 두 갈래입니다. 모델 쪽에서는 윈도우 자체가 4K(GPT-3, 2020) → 100K(Claude 2, 2023) → 1M(Gemini 1.5, 2024) → 2M(Grok 4 Fast, 2025)으로 확장 중이고, Anthropic은 2026년 3월 Claude Opus 4.6·Sonnet 4.6의 100만 토큰 윈도우를 표준 단가로 일반 공개해 장문 프리미엄 요금을 없앴습니다 ^[4]. 사용 쪽에서는 컨텍스트 캐싱이 표준으로 자리잡고 있는데, Google 공식 문서는 같은 자료를 반복 활용할 때 입출력 단가를 4분의 1 수준까지 낮출 수 있다고 안내합니다 ^[1]. 한국에서는 인공지능신문 등 권위 매체가 Gemini 100만 토큰 모델 공개 시점부터 "차세대 모델"이라는 표현으로 다뤘고 ^[8], 사내 코드 리뷰·법무 검토·장기간 고객 상담 로그 분석처럼 RAG 단독으로는 어려웠던 워크로드가 "통째로 투입 + 캐싱" 조합으로 옮겨가는 흐름이 뚜렷합니다 ^[1][4]. 운영팀은 윈도우 사양만 보지 않고, 같은 모델의 needle-in-a-haystack 평가 점수와 캐싱 단가표를 함께 확인하는 절차를 표준 체크리스트로 두고 있습니다 ^[1][7].

흐름

2020

GPT-3 4K

초기 LLM 시대, 4K 토큰으로 한 페이지 분량만 처리.

2023.03

GPT-4 32K

32K로 확장, 짧은 보고서 한 편이 한 번에 들어감.

2023.05

Claude 100K

Anthropic이 100K 돌파, 책 한 권 분량을 한 번에 처리.

2024

Gemini 1M

구글이 1M 토큰 공개, 영상·코드베이스까지 통째로 입력.

2025—

멀티모달 확장

텍스트·이미지·영상·오디오를 한 컨텍스트에 통합.

이 용어와의 관계

기반 기술
Token컨텍스트 윈도우는 토큰 단위로 측정됩니다
유사 개념
Max Tokens출력 길이를 제한하는 짝꿍 파라미터
다음 단계
Prompt Caching긴 컨텍스트를 반복 활용할 때 비용 절감
대체 전략
RAG컨텍스트가 부족할 때 외부 검색으로 보완

Long Context vs RAG

Long ContextRAG

데이터 위치프롬프트에 통째로 입력외부 DB에서 검색해 주입

비용 구조토큰 수에 비례해 증가검색 인프라 + 소량 토큰

최신성매 호출마다 새로 넣음DB만 갱신하면 됨

정확도중간 부분 누락 위험검색 품질에 좌우

적합한 용도단일 긴 문서·코드베이스 분석수천~수백만 문서 중 일부만 참조