Few-shot
퓨샷
AI 활용 분야에서 쓰이는 용어로, LLM에 정답 예시를 2~5개 함께 넣어 똑같은 형식·톤·기준으로 답하게 유도하는 프롬프트 기법입니다.
교수님이 시험 전에 "예시 답안 두세 개 보여줄게" 하고 풀이를 같이 보여주면, 처음 보는 문제도 형식과 기준을 잡기 훨씬 수월하잖아요. Few-shot도 똑같이 LLM에 "이런 입력엔 이런 출력" 짝을 2~5개 끼워 보여주면 모델이 그 패턴을 따라 같은 형식·톤으로 답합니다. 조별 과제에서 보고서 양식 샘플 두 장을 돌리면 팀원들이 알아서 톤을 맞추는 것과 같은 원리예요. 학습 데이터 없이 프롬프트만으로 출력 품질을 끌어올릴 수 있어 실무에서 가장 먼저 시도하는 옵션입니다.
RFP에 표준 양식 두세 장 끼워 외주사에 "이대로 써 주세요"라고 부탁하는 방식입니다.
OpenAI GPT-3 — SuperGLUE 벤치마크에서 zero→few-shot 점프
GPT-3 논문은 같은 175B 모델을 세 가지 설정에서 측정했습니다.[1] SuperGLUE 평균 점수는 zero-shot 60.5점에서 few-shot(32-shot) 71.8점으로 올라 fine-tuned BERT++(71.5점)를 근소하게 앞섰습니다.[1] 같은 모델에 예시만 추가했는데 별도 학습 없이 SOTA 근처까지 끌어올린 사례로, 이후 모든 프롬프트 가이드의 출발점이 됐습니다.
GPT-3 TriviaQA — 예시 한 건 추가만으로도 단계적 상승
같은 논문은 폐쇄형 QA 벤치마크 TriviaQA에서 zero-shot 64.3% → one-shot 68.0% → few-shot 71.2%로 예시 개수에 따라 단계적으로 점수가 오른다고 보고했습니다.[1] 사내 FAQ 봇처럼 형식이 분명한 작업에서, 베스트 답안 두세 건만 프롬프트에 붙여도 정답률 차이가 표로 잡힌다는 점을 보여주는 사례입니다.
Anthropic 공식 가이드 — 형식 강제와 출력 일관성
Anthropic 공식 프롬프트 가이드는 "예시(multishot prompting)는 출력 형식·톤·구조를 가장 안정적으로 통제하는 수단"이라며 3~5개 예시를 <example> 태그로 감싸 제공할 것을 권장합니다.[2] 견적서·계약서를 JSON으로 추출할 때 원하는 키 이름·null 처리·중첩 구조를 담은 예시 세 건을 붙이면, 같은 지시문을 짧게 푸는 경우보다 구조 검증 통과율이 눈에 띄게 안정됩니다. 카피 톤, 회의록 요약 양식처럼 "친근하게"로는 모호한 작업에 가장 효과가 큰 패턴입니다.
분류 과제 — 클래스당 예시 한 건만으로 정확도 향상
2023년 arXiv 후속 분류 연구는 in-context learning 설정에서 클래스당 예시를 끼워 넣으면 zero-shot 대비 평균 정확도가 의미 있게 오른다고 보고했습니다.[4] 고객 문의를 "환불·배송·계정·기타"로 자동 분류하는 사내 도구라면, 각 카테고리에서 실제 문의 한두 건만 예시로 붙여도 라벨 경계가 모호한 케이스에서 분류 품질이 안정됩니다. 라벨링 데이터를 따로 모으기 전 베이스라인을 빠르게 만드는 표준 패턴입니다.
- 자주 반복하는 한 가지 업무(분류·요약·추출·카피 작성)를 고릅니다
- 그 업무의 입력·출력 쌍 3~5개를 직접 만들어 둡니다
- 시스템 프롬프트에 지시문 한 줄과 함께 쌍을
<example>태그로 감싸 차례로 붙입니다 - 같은 프롬프트에서 예시를 뺀 zero-shot 버전과 결과를 입력 10건으로 비교합니다
- 형식이 흔들리는 케이스를 찾아 예시 1~2개를 추가로 보강하고, 토큰 비용과 품질의 균형점을 기록합니다
예시가 많을수록 무조건 좋아지지는 않습니다. 후속 분류 연구에 따르면 클래스당 예시가 약 10개를 넘어가면 추가 효과가 줄고, 같은 토큰을 파인튜닝에 쓰는 편이 더 나아지는 구간이 옵니다.[4] 예시의 순서·편향·길이가 결과에 직접 영향을 주기 때문에 "어떤 예시를 어떤 순서로 넣을지" 자체가 별도의 설계 과제가 됩니다. 컨텍스트 한도를 잡아먹어 비용·지연이 늘고, 한 건의 예시가 비전형적이거나 오답을 포함하면 모델이 그 패턴까지 따라가는 위험도 있습니다. 사내 견적·고객 데이터를 예시로 그대로 붙이면 민감정보가 외부 모델로 흘러갈 가능성이 있어, Anthropic 공식 문서는 마스킹·익명화를 권장합니다.[2] 분류 과제 일부 측정에서는 라벨 경계가 단순할 경우 few-shot이 zero-shot보다 큰 차이를 만들지 못하는 구간도 보고됐습니다.[4]
진화 방향은 두 갈래입니다. 하나는 예시를 동적으로 선택하는 흐름으로, 사용자 입력과 가장 비슷한 사례를 벡터 검색으로 골라 프롬프트에 끼우는 RAG 기반 few-shot이 생산 환경의 표준이 되고 있습니다.[4] 정적 예시 세트를 매번 똑같이 붙이는 대신, 그때그때 가장 닮은 사례 3~5건을 가져와 끼우는 방식입니다. 다른 하나는 모델 자체가 똑똑해져 예시 의존도가 줄어드는 방향입니다. GPT-4·Claude 세대에서는 zero-shot 성능이 GPT-3 시대의 few-shot 수준에 근접해, OpenAI·Anthropic 공식 문서가 "추론 모델에서는 예시 없이 먼저 시작하고, 부족할 때만 예시를 보강하라"고 명시하는 방향으로 권고가 바뀌었습니다.[2][3] 2024년 9월 OpenAI o1 발표 이후 등장한 추론 모델 흐름에서는 모델이 응답 전에 자체적으로 "reasoning token"을 소비하며 단계를 짚기 때문에 사용자가 예시로 형식을 잡아 줘야 할 필요가 더 줄어듭니다. 대신 어떤 작업에 어느 정도의 예시·추론 예산을 할당할지가 새로운 설계 변수로 자리 잡고 있습니다.[3] 현재 시점에서는 zero-shot으로 베이스라인을 만들고, 형식이 흔들리는 케이스에만 예시를 붙이는 단계적 접근이 토큰 비용과 정확도의 균형점으로 권장됩니다.[2][3]
- 유사 개념Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- Language Models are Few-Shot Learners — 학술 논문 · Brown et al., arXiv · 2020-05-28
- Use examples (multishot prompting) — 공식 문서 · Anthropic · 2024
- Prompting guide — 공식 문서 · OpenAI Platform · 2024
- Towards Informative Few-Shot Prompt with Maximum Information Gain for In-Context Learning — 학술 논문 · arXiv · 2023-10
- How Klarna's AI assistant redefined customer support at scale for 85 million active users — 사례 발표 · LangChain Blog · 2024
- Prompt engineering best practices for ChatGPT (한국어) — 공식 문서 · OpenAI Help Center · 2024
- 퓨샷 러닝이란 무엇인가요? — 기업 공식 자료 · IBM Korea · 2024
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.