프롬프트·AI 활용

Few-shot

퓨샷

AI 활용 분야에서 쓰이는 용어로, LLM에 정답 예시를 2~5개 함께 넣어 똑같은 형식·톤·기준으로 답하게 유도하는 프롬프트 기법입니다.

쉬운 풀이

교수님이 시험 전에 "예시 답안 두세 개 보여줄게" 하고 풀이를 같이 보여주면, 처음 보는 문제도 형식과 기준을 잡기 훨씬 수월하잖아요. Few-shot도 똑같이 LLM에 "이런 입력엔 이런 출력" 짝을 2~5개 끼워 보여주면 모델이 그 패턴을 따라 같은 형식·톤으로 답합니다. 조별 과제에서 보고서 양식 샘플 두 장을 돌리면 팀원들이 알아서 톤을 맞추는 것과 같은 원리예요. 학습 데이터 없이 프롬프트만으로 출력 품질을 끌어올릴 수 있어 실무에서 가장 먼저 시도하는 옵션입니다.

한 줄 비유

RFP에 표준 양식 두세 장 끼워 외주사에 "이대로 써 주세요"라고 부탁하는 방식입니다.

활용 예시

Case 1

OpenAI GPT-3 — SuperGLUE 벤치마크에서 zero→few-shot 점프

GPT-3 논문은 같은 175B 모델을 세 가지 설정에서 측정했습니다.^[1] SuperGLUE 평균 점수는 zero-shot 60.5점에서 few-shot(32-shot) 71.8점으로 올라 fine-tuned BERT++(71.5점)를 근소하게 앞섰습니다.^[1] 같은 모델에 예시만 추가했는데 별도 학습 없이 SOTA 근처까지 끌어올린 사례로, 이후 모든 프롬프트 가이드의 출발점이 됐습니다.

Case 2

GPT-3 TriviaQA — 예시 한 건 추가만으로도 단계적 상승

같은 논문은 폐쇄형 QA 벤치마크 TriviaQA에서 zero-shot 64.3% → one-shot 68.0% → few-shot 71.2%로 예시 개수에 따라 단계적으로 점수가 오른다고 보고했습니다.^[1] 사내 FAQ 봇처럼 형식이 분명한 작업에서, 베스트 답안 두세 건만 프롬프트에 붙여도 정답률 차이가 표로 잡힌다는 점을 보여주는 사례입니다.

Case 3

Anthropic 공식 가이드 — 형식 강제와 출력 일관성

Anthropic 공식 프롬프트 가이드는 "예시(multishot prompting)는 출력 형식·톤·구조를 가장 안정적으로 통제하는 수단"이라며 3~5개 예시를 <example> 태그로 감싸 제공할 것을 권장합니다.^[2] 견적서·계약서를 JSON으로 추출할 때 원하는 키 이름·null 처리·중첩 구조를 담은 예시 세 건을 붙이면, 같은 지시문을 짧게 푸는 경우보다 구조 검증 통과율이 눈에 띄게 안정됩니다. 카피 톤, 회의록 요약 양식처럼 "친근하게"로는 모호한 작업에 가장 효과가 큰 패턴입니다.

Case 4

분류 과제 — 클래스당 예시 한 건만으로 정확도 향상

2023년 arXiv 후속 분류 연구는 in-context learning 설정에서 클래스당 예시를 끼워 넣으면 zero-shot 대비 평균 정확도가 의미 있게 오른다고 보고했습니다.^[4] 고객 문의를 "환불·배송·계정·기타"로 자동 분류하는 사내 도구라면, 각 카테고리에서 실제 문의 한두 건만 예시로 붙여도 라벨 경계가 모호한 케이스에서 분류 품질이 안정됩니다. 라벨링 데이터를 따로 모으기 전 베이스라인을 빠르게 만드는 표준 패턴입니다.

참고사항

자주 반복하는 한 가지 업무(분류·요약·추출·카피 작성)를 고릅니다
그 업무의 입력·출력 쌍 3~5개를 직접 만들어 둡니다
시스템 프롬프트에 지시문 한 줄과 함께 쌍을 <example> 태그로 감싸 차례로 붙입니다
같은 프롬프트에서 예시를 뺀 zero-shot 버전과 결과를 입력 10건으로 비교합니다
형식이 흔들리는 케이스를 찾아 예시 1~2개를 추가로 보강하고, 토큰 비용과 품질의 균형점을 기록합니다

예시가 많을수록 무조건 좋아지지는 않습니다. 후속 분류 연구에 따르면 클래스당 예시가 약 10개를 넘어가면 추가 효과가 줄고, 같은 토큰을 파인튜닝에 쓰는 편이 더 나아지는 구간이 옵니다.^[4] 예시의 순서·편향·길이가 결과에 직접 영향을 주기 때문에 "어떤 예시를 어떤 순서로 넣을지" 자체가 별도의 설계 과제가 됩니다. 컨텍스트 한도를 잡아먹어 비용·지연이 늘고, 한 건의 예시가 비전형적이거나 오답을 포함하면 모델이 그 패턴까지 따라가는 위험도 있습니다. 사내 견적·고객 데이터를 예시로 그대로 붙이면 민감정보가 외부 모델로 흘러갈 가능성이 있어, Anthropic 공식 문서는 마스킹·익명화를 권장합니다.^[2] 분류 과제 일부 측정에서는 라벨 경계가 단순할 경우 few-shot이 zero-shot보다 큰 차이를 만들지 못하는 구간도 보고됐습니다.^[4]

진화 방향은 두 갈래입니다. 하나는 예시를 동적으로 선택하는 흐름으로, 사용자 입력과 가장 비슷한 사례를 벡터 검색으로 골라 프롬프트에 끼우는 RAG 기반 few-shot이 생산 환경의 표준이 되고 있습니다.^[4] 정적 예시 세트를 매번 똑같이 붙이는 대신, 그때그때 가장 닮은 사례 3~5건을 가져와 끼우는 방식입니다. 다른 하나는 모델 자체가 똑똑해져 예시 의존도가 줄어드는 방향입니다. GPT-4·Claude 세대에서는 zero-shot 성능이 GPT-3 시대의 few-shot 수준에 근접해, OpenAI·Anthropic 공식 문서가 "추론 모델에서는 예시 없이 먼저 시작하고, 부족할 때만 예시를 보강하라"고 명시하는 방향으로 권고가 바뀌었습니다.^[2][3] 2024년 9월 OpenAI o1 발표 이후 등장한 추론 모델 흐름에서는 모델이 응답 전에 자체적으로 "reasoning token"을 소비하며 단계를 짚기 때문에 사용자가 예시로 형식을 잡아 줘야 할 필요가 더 줄어듭니다. 대신 어떤 작업에 어느 정도의 예시·추론 예산을 할당할지가 새로운 설계 변수로 자리 잡고 있습니다.^[3] 현재 시점에서는 zero-shot으로 베이스라인을 만들고, 형식이 흔들리는 케이스에만 예시를 붙이는 단계적 접근이 토큰 비용과 정확도의 균형점으로 권장됩니다.^[2][3]

이 용어와의 관계

유사 개념
Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.