RAG
검색 증강 생성
AI 활용 기법 분야에서 쓰이는 Retrieval-Augmented Generation(검색 증강 생성)의 약자로, 답변하기 전에 외부 자료를 찾아 근거 문서를 같이 읽고 답하도록 한 기법입니다.
RAG는 AI에게 '기억나는 대로 답하지 말고, 책장에서 자료를 꺼내 보고 답해줘'라고 시키는 방식이에요. 시험 볼 때 머릿속 지식만 쓰는 폐쇄형 시험이 아니라, 교재와 노트를 펴 놓고 답을 쓰는 오픈북 시험이라고 생각하면 가깝습니다. 그래서 학습 시점 이후의 새 정보나, 회사 내부 자료처럼 AI가 원래 모르던 내용도 정확하게 답할 수 있어요. 챗봇이 '출처: 사내 매뉴얼 12쪽'처럼 근거 문서를 같이 보여주는 장면을 봤다면, 보통 그 뒤에 RAG가 돌아가고 있다고 보시면 됩니다.
회의 들어가기 전에 관련 자료부터 뽑아서 들고 들어가는 방식입니다.
Anthropic — Contextual Retrieval로 RAG 검색 정확도 개선
Anthropic은 2024년 9월 공식 블로그에서 표준 RAG의 한계를 보완하는 Contextual Retrieval 기법을 공개했습니다. 문서를 청크(작은 단락)로 자를 때 각 청크 앞에 '이 단락이 어떤 문서의 어느 부분인지' 한 줄 맥락을 LLM이 자동으로 생성해 붙인 뒤, 임베딩(문장을 숫자 벡터로 바꾸는 작업)과 BM25(키워드 매칭)를 함께 적용하는 방식입니다. 동일 데이터셋·동일 검색기 조건에서 단순 RAG와 비교 실험을 진행했고, 청크당 맥락 부여 비용도 함께 공개했습니다.[2]
Morgan Stanley — 자산관리 어드바이저용 사내 리서치 챗봇
모건스탠리는 OpenAI와 협업해 GPT-4 기반 사내 어시스턴트 'AI @ Morgan Stanley Assistant'를 구축했습니다. 약 10만 건 규모의 사내 리서치 보고서를 RAG로 검색해 답하는 구조이고, 어드바이저가 'AI 관련주의 리스크는?' 같은 자연어 질문을 던지면 출처 인용과 함께 답이 나옵니다. 후속 도구 Debrief까지 확장되며 자산관리 부문 어드바이저의 일상 업무에 자리 잡았습니다.[4][5]
한국 핀테크 — 약관·상품설명서 응대 챗봇
월간 문의 약 12만 건을 처리하는 한 핀테크는 약관·상품설명서 1,800건을 기반으로 RAG에 소규모 LoRA 파인튜닝을 결합한 하이브리드 구조를 14주간 구축했습니다. 한국어 특화 임베딩(KURE), Qdrant 벡터 DB, 키워드+의미 결합의 하이브리드 검색, Claude Sonnet을 조합했습니다. 도입 전 1차 자동 해소율(상담사 연결 없이 챗봇 단독으로 끝나는 비율)은 38% 수준이었습니다.[6]
Stanford CS25 — 정규 강의의 RAG 모듈 채택
스탠퍼드대학교 컴퓨터과학과의 트랜스포머 심화 강의 CS25(V3)는 'Retrieval Augmented Language Models' 회차를 정규 커리큘럼에 편성했습니다. 비모수 외부 메모리(검색기) 결합, 문장 윈도 검색, 검색기-생성기 평가의 3축 분리(context relevance / answer relevance / groundedness) 같은 RAG 설계 원리를 학생들이 직접 다루도록 가르치고 있고, 공개 강의 영상은 누구나 시청할 수 있도록 공개되어 있습니다.[7]
- 답하게 할 문서 범위를 정합니다 — 사내 위키, 제품 매뉴얼, 약관 PDF 같은 명확한 묶음 한 덩어리.
- 문서를 청크로 자릅니다 — 보통 200~800 토큰, 의미 단위로 끊습니다.
- 임베딩 모델로 청크를 벡터로 변환해 벡터 DB(예: pgvector, Pinecone, Chroma)에 적재합니다.
- 질문이 들어오면 상위 K개 청크(보통 top-20)를 뽑아 프롬프트에 붙여 LLM에 전달합니다.
- 답변마다 출처 청크 ID를 함께 출력하게 만들고, 정답이 명확한 질문 30~50개로 정확도 평가표를 돌립니다.
RAG가 답변 신뢰도를 올려 주는 것은 맞지만, 검색이 잘못되면 LLM이 잘못된 단락을 근거로 자신 있게 거짓 답을 만들어 내는 '환각 위에 환각'이 일어날 수 있습니다. 청크 분할 방식, 임베딩 모델의 한국어 처리력, 평가 데이터셋 부재 같은 운영 변수가 정확도를 크게 좌우하고[8], 실제로 한국의 한 중소 IT 기업 사례에서는 평가 데이터셋 없이 무료 임베딩 모델로 도입한 결과 정답률이 41%에 그쳐 4개월 만에 운영이 중단됐습니다.[6] Bloomberg 연구진은 2025년 발표한 논문에서, 평소 안전한 답을 내는 모델도 RAG로 외부 문서를 끌어오면 위험 답변이 늘어날 수 있다는 결과를 내놓기도 했습니다. 사내 문서가 오래되거나 서로 충돌하는 경우 답변 품질이 흔들리는 점도 운영 단계에서 자주 보고되는 한계입니다. 그래서 도입 초기에는 환각 감소 효과보다, 검색이 실패하는 케이스를 줄이는 작업이 더 큰 비중을 차지하는 것이 일반적입니다.
현재 진화 방향은 크게 세 갈래입니다.
- 검색 자체를 정교화하는 흐름입니다. Anthropic의 Contextual Retrieval(2024년 9월)처럼 청크 자체에 맥락을 주입해 검색 정밀도를 끌어올리는 접근이 표준에 가까워지고 있고, BM25(키워드 매칭)와 임베딩(의미 매칭)을 결합한 하이브리드 검색에 재순위화(reranking)를 더하는 구성이 사실상 기본기로 자리 잡고 있습니다.[2]
- 검색·생성을 분리하지 않고 단계별로 끊어 평가하는 흐름입니다. Stanford CS25 강의는 RAG 시스템을 검색 적합성·답변 적합성·근거성 세 축으로 나눠 평가하라고 가르치고 있습니다.[7]
- 단발성 검색을 넘어 에이전트가 필요할 때마다 도구로 검색을 호출하는 Agentic RAG(에이전트형 RAG)로 옮겨가는 흐름이 보입니다. 사내 문서·웹·DB를 상황별로 골라 쓰는 구성이 늘고 있고, 2025년 arXiv 종합 서베이는 이를 RAG의 차세대 표준 아키텍처로 정리하고 있습니다.[3]
- 다음 단계Agentic Engineering에이전트가 필요할 때마다 검색을 호출하는 흐름
- 유사 개념Fine-tuning모델을 도메인에 맞추는 다른 길
- 기반 기술Embedding청크를 벡터로 바꾸는 검색의 뼈대
- 대표 도구LangChainRAG 파이프라인을 묶는 대표 프레임워크
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., 2020) — 학술 논문 · arXiv/NeurIPS · 2020-05-22
- Introducing Contextual Retrieval — 회사 공식 발표 · Anthropic · 2024-09-19
- Morgan Stanley kicks off generative AI era on Wall Street with assistant for financial advisors — 권위 매체 · CNBC · 2023-09-18
- Key Milestone in Innovation Journey with OpenAI — 회사 공식 보도자료 · Morgan Stanley · 2024
- SK하이닉스의 RAG 플랫폼 구축 및 성능 평가/분석 연구 사례 — 회사 공식 사례 · AWS 기술 블로그 · 2024
- Customizing models for legal professionals — 회사 공식 사례 · OpenAI · 2023
- Bloomberg's Responsible AI Research: Mitigating Risky RAGs & GenAI in Finance — 회사 공식 리서치 · Bloomberg · 2025
- Stanford CS25 V3: Retrieval Augmented Language Models — 대학 공식 강의 · Stanford University · 2024
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.