프롬프트·AI 활용

Context Injection

컨텍스트 주입

AI 활용 분야에서 쓰이는 용어로, 사용자가 입력하는 일반 프롬프트 안에 LLM이 답할 때 참고할 사내 자료·실시간 데이터·문서 조각을 함께 끼워 넣어 답변 정확도를 끌어올리는 방식입니다.

쉬운 풀이

Context Injection은 LLM에게 질문을 던질 때, '이 자료 보고 답해'라며 필요한 문서·데이터를 함께 던져 주는 방식이에요. 모델은 학습 시점 이후의 일이나 사내 매뉴얼은 알지 못하기 때문에, 매번 그 자료를 프롬프트 안에 직접 실어 보내야 정확한 답이 돌아옵니다. 조별 과제 발표 직전에 팀원에게 '이 PDF만 읽고 들어와'라고 핵심 자료를 손에 쥐여 주는 것과 비슷해요. 사내 문서 챗봇, 코드 리뷰 보조, 고객 응대 봇처럼 모델이 모르는 사실을 답해야 하는 작업에서는 가장 먼저 손대는 기본 설정입니다.

한 줄 비유

회의 들어가기 전, 결재판에 필요한 자료만 골라 끼워 넣는 일과 같습니다.

활용 예시

Case 1

Lewis et al. (Facebook AI, 2020) — RAG 논문이 정한 외부 지식 주입 표준

NeurIPS 2020에 발표된 'Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks' 논문은 외부 검색기로 문서를 가져와 생성 모델 입력에 합치는 구조를 제안했습니다^[1]. 같은 시점의 파라미터 전용(seq2seq) 모델 대비 오픈 도메인 QA 3개 과제에서 state-of-the-art를 달성했고, 답변이 더 구체적이고 사실에 가깝다는 평가를 받았습니다^[1]. 사내 위키 검색 챗봇이나 제품 매뉴얼 QA를 만들 때 가장 먼저 검토하는 기본 설계입니다.

Case 2

SK하이닉스 MSR — 사내 RAG 추론 성능 평가 (2025)

SK하이닉스 Memory Systems Research 팀은 AWS 환경에 Llama 3.1 8B 기반 RAG 플랫폼을 구축해 컨텍스트 주입 단계의 추론 성능을 평가했습니다^[6]. 측정 결과 검색·임베딩 단계가 추가되면서 첫 응답 시간(TTFT)이 LLM 단독 호출 대비 약 30% 늘었고, 데이터셋이 2배로 커지면 TTFT가 8~17% 추가로 상승했습니다^[6]. 인덱스가 메모리에 들어가지 못해 디스크에서 읽히는 순간 단일 쿼리 검색 시간이 0.088초에서 122초로 약 1,300배 뛰었습니다^[6]. 사내 RAG 도입 시 인프라 용량 산정 근거로 인용할 수 있는 수치입니다.

Case 3

LY Corporation Flava AI — 점진적 컨텍스트 공개로 환각 차단

LINE·Yahoo Japan 통합법인 LY Corporation의 Cloud AI Platform 팀은 27개 제품군, 260여 개 API, 수백 페이지 문서를 다루는 사내 AI 어시스턴트를 만들면서 '전부 넣지 않는다'를 원칙으로 삼았습니다^[7]. 사용자가 'Redis 클러스터 상태 알려줘'라고 물으면 260개 도구 중 Redis 관련 8개만 컨텍스트에 올리고, 응답 가이드라인은 시스템 프롬프트가 아닌 도구 메시지(ToolMessage) 형태로 끼워 넣어 원칙 충돌과 환각을 막았습니다^[7]. 양보다 선별이 중요하다는 점을 자사 운영 사례로 검증한 보고입니다.

Case 4

Anthropic — MCP로 컨텍스트 주입 자체를 표준화 (2024-11)

Anthropic은 2024년 11월 Model Context Protocol(모델 컨텍스트 프로토콜, MCP)을 공개해, Claude·다른 LLM이 사내 위키·DB·SaaS API 같은 외부 컨텍스트를 한 가지 규약으로 끼워 넣을 수 있도록 개방형 표준을 제시했습니다^[5]. Claude Code의 @파일경로 입력은 같은 사상의 사용자 친화 구현으로, 프롬프트에 파일 묶음을 즉시 주입하고 CLAUDE.md에 @경로를 적어 두면 세션 시작 시 자동 로드됩니다^[8]. 코드 리뷰·사양 검토처럼 호출마다 참조 자료가 달라지는 작업에 그대로 적용 가능한 구조입니다.

참고사항

자주 묻는 사내 질문 3개를 골라, 답에 필요한 문서를 손으로 프롬프트에 붙여 봅니다.
같은 질문에 문서를 넣었을 때와 빼었을 때 답변 정확도가 어떻게 달라지는지 비교합니다.
Anthropic 권고대로 긴 문서는 프롬프트 상단, 질문은 하단에 두고 같은 자료로 성능 차이를 측정합니다^[9].
문서가 길면 핵심 단락만 추리거나 요약본을 만들어, 노이즈가 줄었을 때의 성능을 확인합니다.
Claude Code나 Cursor에서 @파일경로로 코드 일부만 주입하는 워크플로를 한 작업에 적용해 봅니다^[8].

컨텍스트 윈도우는 무한이 아니며, 길어질수록 모델이 핵심을 놓치는 'Context Rot' 현상이 보고되고 있습니다. Anthropic 공식 엔지니어링 블로그는 모델이 지원하는 길이 안이라도 토큰이 많아질수록 정확한 검색 능력이 떨어진다고 정리하며, 무작정 많이 넣지 말 것을 권고합니다^[2]. Du 등이 2025년 EMNLP에 발표한 실측 연구는 입력이 단순히 길어졌다는 이유만으로 성능이 최대 85%까지 떨어지는 경우를 관측했고^[10], Databricks 실험에서도 32K~64K 토큰을 넘어가면 성능이 하락하기 시작했다는 보고가 누적되고 있습니다^[7]. 또한 외부 자료를 무차별로 끼워 넣으면 정답과 비슷해 보이는 잡음이 함께 섞이고, 사용자명·타임스탬프 같은 가변 정보가 prefix에 끼면 prompt cache 적중률도 함께 떨어집니다. 결국 컨텍스트 주입은 '어떤 자료를·얼마만큼·어느 위치에' 넣을지 설계하는 일이며, Anthropic은 긴 문서를 다룰 때 모델에게 관련 인용을 먼저 뽑게 한 뒤 답변하도록 지시하면 정확도가 크게 오른다고 별도 가이드에서 안내합니다^[9].

진화 방향은 '더 많이 넣기'가 아니라 '꼭 필요한 것만, 알맞은 위치에 넣기'입니다. Anthropic은 2025년 9월 컨텍스트 엔지니어링을 별도 분야로 명명하면서 compaction(누적 대화 압축), structured note-taking(외부 메모 분리), multi-agent architecture(역할별 컨텍스트 분리)를 표준 패턴으로 제시했고^[2], MCP는 모델이 매번 같은 자료를 통째로 받지 않고 필요할 때 호출해 가져가는 구조를 표준화하고 있습니다^[5]. LY Corporation Flava AI처럼 도구 260개 가운데 8개만 점진적으로 공개하거나, Claude Code의 @파일경로 입력처럼 사용자가 필요한 컨텍스트를 매 호출 단위로 골라 넣는 인터페이스가 빠르게 표준이 되고 있습니다^[7][8]. 사내 문서 QA·코드베이스 분석·고객 응대 봇에 그대로 적용 가능한 흐름으로, 2026년 이후 LLM 운영의 1차 설계 포인트는 모델 자체보다 컨텍스트를 어떻게 끼워 넣을지에 더 가깝게 이동하고 있습니다.

이 용어와의 관계

유사 개념
Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.