프롬프트·AI 활용

Zero-shot

제로샷

AI 활용 분야에서 쓰이는 용어로, LLM에 예시 한 개도 보여주지 않고 작업 설명만 주어 곧바로 답을 내도록 시키는 방식으로, GPT-3 이후 일반화된 표준 사용 패턴입니다.

쉬운 풀이

신입 시절 사수가 "양식 보여줄 테니까 이거 참고해서 써" 하지 않고 "회의록 정리해서 올려"라고만 시키는 상황을 떠올려 보세요. Zero-shot은 LLM에게 딱 그렇게 예시 없이 지시문 한 줄만 주고 곧바로 답을 받는 방식이에요. 시험 직전에 족보 없이 "범위는 3장까지야"라는 말만 듣고 문제를 푸는 것과 같은 그림입니다. GPT-3 시절엔 예시를 끼워 줘야 점수가 올랐지만, 요즘 추론 모델은 예시 없이도 거뜬해서 실무에서 가장 먼저 시도하는 기본값이 됐어요.

한 줄 비유

신입 외주사에 견본 없이 "이 양식으로 정리해 주세요" 한 줄만 보내는 방식입니다.

활용 예시

Case 1

OpenAI GPT-3 — 같은 모델에서 zero-shot이 처음 정의된 자리

GPT-3 논문은 175B 동일 모델을 zero-shot·one-shot·few-shot 세 가지 설정으로 측정했습니다.^[1] TriviaQA 기준 zero-shot 64.3%, few-shot 71.2%로 약 6.9%p 차이가 났고, SuperGLUE에서는 zero-shot 60.5점, few-shot 71.8점으로 평균 11.3점 차이가 보고됐습니다.^[1] 별도 파인튜닝 없이 프롬프트의 예시 개수만 바꿔도 점수가 단계적으로 움직인다는 점이 zero-shot이라는 개념이 NLP 표준 용어로 자리 잡은 출발점이 됐습니다.

Case 2

OpenAI o1 — 추론 모델에서 zero-shot 정답률 폭증

2024년 9월 공개된 o1 시리즈는 사용자 프롬프트와 별개로 응답 전에 "reasoning token"을 자체 소비해 단계를 짚는 구조로, 예시 없이도 고난도 벤치마크 정답률이 크게 올랐습니다.^[4] OpenAI 공식 발표 기준 o1은 MATH 데이터셋(고교 수학경시 수준)에서 zero-shot 94.8% 정답률, AIME 2024(미국 수학경시)에서 zero-shot 정답률 83.3%로 GPT-4o(13.4%)를 큰 차이로 앞섰습니다.^[4] 사용자가 예시로 형식을 잡아 줄 필요가 줄면서 zero-shot이 표준 사용 패턴으로 굳어지는 결정적 근거가 됐습니다.

Case 3

한국어 감성 분석 — 라벨링 데이터 없이 즉시 베이스라인

한국컴퓨터정보학회 논문(2024)은 GPT-4·GPT-3.5를 한국어 영화·게임·쇼핑 리뷰에 zero-shot으로 적용해 KoBERT·KoELECTRA 같은 한국어 전용 fine-tuned 모델과 비교했습니다.^[6] GPT-4는 영화·쇼핑 데이터셋에서 한국어 전용 모델에 근접하거나 일부 항목에서 더 높은 F1을 기록했고, 별도 학습 없이 즉시 투입 가능하다는 점이 장점으로 평가됐습니다.^[6] 한국 스타트업이 리뷰 분류기를 빠르게 붙여야 할 때, 라벨링 데이터를 모으기 전에 zero-shot으로 베이스라인을 만들고 안 잡히는 도메인만 따로 학습 데이터를 모으는 단계적 접근이 자리 잡고 있습니다.

Case 4

번역·요약 — 형식이 분명한 사내 업무의 기본값

OpenAI 공식 가이드는 "번역·요약·간단한 코드 생성처럼 입출력 형식이 명확한 작업은 zero-shot만으로 양산 품질에 도달하는 경우가 많다"고 안내합니다.^[2] 견적서 영문→한글 번역, 회의록 3줄 요약 같은 사내 업무는 예시 없이 지시문 한 줄로 충분하고 토큰 비용도 줄어듭니다. 다만 학술 연구에 따르면 번역의 경우 zero-shot과 few-shot의 격차는 의미보다 "문체"에서 크게 나타나기 때문에,^[7] 사내 톤이 중요한 외부 문서는 예시 한두 건을 덧붙이는 편이 안정적입니다.

참고사항

자주 반복하는 한 가지 업무(분류·요약·추출·번역)를 골라 입출력 형식부터 정합니다
예시 없이 지시문 한 줄과 출력 형식 명세만으로 zero-shot 프롬프트를 작성합니다
같은 입력 10건을 통과시켜 결과를 표로 모으고, 형식 일관성과 정확도를 함께 봅니다
결과 중 형식이 흔들리거나 누락이 보인 케이스만 따로 추려 패턴을 메모합니다
그 케이스에 한해 예시 1~3개를 추가해 few-shot으로 보강한 뒤 점수 차를 다시 측정합니다

zero-shot은 형식이 분명하지 않은 과업에서 출력이 흔들립니다. GPT-3 논문 기준 SuperGLUE 평균이 zero-shot 60.5점, few-shot 71.8점으로 약 11.3점 차이가 났고, TriviaQA도 64.3% → 71.2%로 약 6.9%p 차이가 났습니다.^[1] 분류 과제에서도 zero-shot이 few-shot보다 평균 12.2%p 낮은 결과가 보고된 적이 있어, 라벨 경계가 모호한 사내 분류기일수록 예시 추가의 효과가 큽니다.^[8] 사내 톤이 중요한 카피·번역에서는 의미는 맞아도 문체가 어색해지는 문제가 있고,^[7] 한국어 도메인에서는 GPT-4도 일부 영역에서는 한국어 전용 fine-tuned 모델에 미치지 못한다는 측정이 있습니다.^[6] 출력 형식 측면에서도 zero-shot은 키 이름·들여쓰기·null 처리 같은 세부가 흔들리기 쉬워, 구조화 데이터 추출에는 한두 건의 예시가 사실상 필수에 가깝습니다.

진화 방향은 두 갈래입니다. 하나는 모델 자체가 똑똑해지는 흐름으로, OpenAI o1·Claude 추론 모델 세대에서는 zero-shot 정답률이 GPT-3 시대의 few-shot 수준을 한참 뛰어넘었습니다. o1의 MATH 정답률은 zero-shot 94.8%, AIME 2024는 83.3%로 보고됐고, GPT-4o(MATH 60.3%, AIME 13.4%) 대비 큰 폭의 상승을 보였습니다.^[4] 이에 따라 OpenAI·Anthropic 공식 문서가 "추론 모델에서는 예시 없이 먼저 시도하고, 부족할 때만 예시를 보강하라"는 권고로 정리되며 zero-shot이 표준 사용 패턴으로 굳어졌습니다.^[2][3] 다른 하나는 zero-shot을 기본값으로 두되 부족할 때만 예시를 동적으로 끼우는 RAG·하이브리드 방식으로, 사용자 입력과 비슷한 사례만 골라 붙이는 패턴이 생산 환경의 표준이 되고 있습니다.^[2] 현재 시점에서는 zero-shot으로 베이스라인을 만들고, 흔들리는 케이스만 예시로 보강하는 단계적 접근이 토큰 비용과 정확도의 균형점으로 권장됩니다.^[2][3]

이 용어와의 관계

유사 개념
Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.