Zero-shot
제로샷
AI 활용 분야에서 쓰이는 용어로, LLM에 예시 한 개도 보여주지 않고 작업 설명만 주어 곧바로 답을 내도록 시키는 방식으로, GPT-3 이후 일반화된 표준 사용 패턴입니다.
신입 시절 사수가 "양식 보여줄 테니까 이거 참고해서 써" 하지 않고 "회의록 정리해서 올려"라고만 시키는 상황을 떠올려 보세요. Zero-shot은 LLM에게 딱 그렇게 예시 없이 지시문 한 줄만 주고 곧바로 답을 받는 방식이에요. 시험 직전에 족보 없이 "범위는 3장까지야"라는 말만 듣고 문제를 푸는 것과 같은 그림입니다. GPT-3 시절엔 예시를 끼워 줘야 점수가 올랐지만, 요즘 추론 모델은 예시 없이도 거뜬해서 실무에서 가장 먼저 시도하는 기본값이 됐어요.
신입 외주사에 견본 없이 "이 양식으로 정리해 주세요" 한 줄만 보내는 방식입니다.
OpenAI GPT-3 — 같은 모델에서 zero-shot이 처음 정의된 자리
GPT-3 논문은 175B 동일 모델을 zero-shot·one-shot·few-shot 세 가지 설정으로 측정했습니다.[1] TriviaQA 기준 zero-shot 64.3%, few-shot 71.2%로 약 6.9%p 차이가 났고, SuperGLUE에서는 zero-shot 60.5점, few-shot 71.8점으로 평균 11.3점 차이가 보고됐습니다.[1] 별도 파인튜닝 없이 프롬프트의 예시 개수만 바꿔도 점수가 단계적으로 움직인다는 점이 zero-shot이라는 개념이 NLP 표준 용어로 자리 잡은 출발점이 됐습니다.
OpenAI o1 — 추론 모델에서 zero-shot 정답률 폭증
2024년 9월 공개된 o1 시리즈는 사용자 프롬프트와 별개로 응답 전에 "reasoning token"을 자체 소비해 단계를 짚는 구조로, 예시 없이도 고난도 벤치마크 정답률이 크게 올랐습니다.[4] OpenAI 공식 발표 기준 o1은 MATH 데이터셋(고교 수학경시 수준)에서 zero-shot 94.8% 정답률, AIME 2024(미국 수학경시)에서 zero-shot 정답률 83.3%로 GPT-4o(13.4%)를 큰 차이로 앞섰습니다.[4] 사용자가 예시로 형식을 잡아 줄 필요가 줄면서 zero-shot이 표준 사용 패턴으로 굳어지는 결정적 근거가 됐습니다.
한국어 감성 분석 — 라벨링 데이터 없이 즉시 베이스라인
한국컴퓨터정보학회 논문(2024)은 GPT-4·GPT-3.5를 한국어 영화·게임·쇼핑 리뷰에 zero-shot으로 적용해 KoBERT·KoELECTRA 같은 한국어 전용 fine-tuned 모델과 비교했습니다.[6] GPT-4는 영화·쇼핑 데이터셋에서 한국어 전용 모델에 근접하거나 일부 항목에서 더 높은 F1을 기록했고, 별도 학습 없이 즉시 투입 가능하다는 점이 장점으로 평가됐습니다.[6] 한국 스타트업이 리뷰 분류기를 빠르게 붙여야 할 때, 라벨링 데이터를 모으기 전에 zero-shot으로 베이스라인을 만들고 안 잡히는 도메인만 따로 학습 데이터를 모으는 단계적 접근이 자리 잡고 있습니다.
번역·요약 — 형식이 분명한 사내 업무의 기본값
OpenAI 공식 가이드는 "번역·요약·간단한 코드 생성처럼 입출력 형식이 명확한 작업은 zero-shot만으로 양산 품질에 도달하는 경우가 많다"고 안내합니다.[2] 견적서 영문→한글 번역, 회의록 3줄 요약 같은 사내 업무는 예시 없이 지시문 한 줄로 충분하고 토큰 비용도 줄어듭니다. 다만 학술 연구에 따르면 번역의 경우 zero-shot과 few-shot의 격차는 의미보다 "문체"에서 크게 나타나기 때문에,[7] 사내 톤이 중요한 외부 문서는 예시 한두 건을 덧붙이는 편이 안정적입니다.
- 자주 반복하는 한 가지 업무(분류·요약·추출·번역)를 골라 입출력 형식부터 정합니다
- 예시 없이 지시문 한 줄과 출력 형식 명세만으로 zero-shot 프롬프트를 작성합니다
- 같은 입력 10건을 통과시켜 결과를 표로 모으고, 형식 일관성과 정확도를 함께 봅니다
- 결과 중 형식이 흔들리거나 누락이 보인 케이스만 따로 추려 패턴을 메모합니다
- 그 케이스에 한해 예시 1~3개를 추가해 few-shot으로 보강한 뒤 점수 차를 다시 측정합니다
zero-shot은 형식이 분명하지 않은 과업에서 출력이 흔들립니다. GPT-3 논문 기준 SuperGLUE 평균이 zero-shot 60.5점, few-shot 71.8점으로 약 11.3점 차이가 났고, TriviaQA도 64.3% → 71.2%로 약 6.9%p 차이가 났습니다.[1] 분류 과제에서도 zero-shot이 few-shot보다 평균 12.2%p 낮은 결과가 보고된 적이 있어, 라벨 경계가 모호한 사내 분류기일수록 예시 추가의 효과가 큽니다.[8] 사내 톤이 중요한 카피·번역에서는 의미는 맞아도 문체가 어색해지는 문제가 있고,[7] 한국어 도메인에서는 GPT-4도 일부 영역에서는 한국어 전용 fine-tuned 모델에 미치지 못한다는 측정이 있습니다.[6] 출력 형식 측면에서도 zero-shot은 키 이름·들여쓰기·null 처리 같은 세부가 흔들리기 쉬워, 구조화 데이터 추출에는 한두 건의 예시가 사실상 필수에 가깝습니다.
진화 방향은 두 갈래입니다. 하나는 모델 자체가 똑똑해지는 흐름으로, OpenAI o1·Claude 추론 모델 세대에서는 zero-shot 정답률이 GPT-3 시대의 few-shot 수준을 한참 뛰어넘었습니다. o1의 MATH 정답률은 zero-shot 94.8%, AIME 2024는 83.3%로 보고됐고, GPT-4o(MATH 60.3%, AIME 13.4%) 대비 큰 폭의 상승을 보였습니다.[4] 이에 따라 OpenAI·Anthropic 공식 문서가 "추론 모델에서는 예시 없이 먼저 시도하고, 부족할 때만 예시를 보강하라"는 권고로 정리되며 zero-shot이 표준 사용 패턴으로 굳어졌습니다.[2][3] 다른 하나는 zero-shot을 기본값으로 두되 부족할 때만 예시를 동적으로 끼우는 RAG·하이브리드 방식으로, 사용자 입력과 비슷한 사례만 골라 붙이는 패턴이 생산 환경의 표준이 되고 있습니다.[2] 현재 시점에서는 zero-shot으로 베이스라인을 만들고, 흔들리는 케이스만 예시로 보강하는 단계적 접근이 토큰 비용과 정확도의 균형점으로 권장됩니다.[2][3]
- 유사 개념Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- Language Models are Few-Shot Learners — 학술 논문 · Brown et al., arXiv · 2020-05-28
- Prompting guide — 공식 문서 · OpenAI Platform · 2024
- Reasoning best practices — 공식 문서 · OpenAI Platform · 2024
- Learning Transferable Visual Models From Natural Language Supervision — 학술 논문 · Radford et al., arXiv · 2021-02-26
- Zero-Shot Text-to-Image Generation — 학술 논문 · Ramesh et al., arXiv · 2021-02-24
- 대규모 언어 모델을 사용한 제로샷 한국어 감성 분석: 사전 학습된 언어 모델과의 비교 — 학술 논문 · 한국컴퓨터정보학회 논문지 · 2024
- Narrowing the Gap between Zero- and Few-shot Machine Translation by Matching Styles — 학술 논문 · arXiv · 2023-11
- Stanford CS224N — NLP with Deep Learning, Lecture 10: Post-training — 대학 강의 · Stanford University · 2024
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.