프롬프트·AI 활용

Top-p

탑피

AI 활용 분야에서 쓰이는 용어로, LLM이 다음 단어를 고를 때 누적 확률이 정해진 임계값까지 도달하는 후보군 안에서만 단어를 뽑도록 강제하는 핵심 표본 추출 파라미터입니다.

쉬운 풀이

Top-p는 LLM(Large Language Model, 거대 언어 모델)이 다음 단어를 고를 때 "누적 확률 몇 %까지의 후보만 검토할지" 미리 정해 두는 다이얼이에요. 예를 들어 0.9로 두면 가능성 높은 단어들을 누적 90%까지만 모아 그 안에서 하나를 뽑고, 0.1로 두면 거의 1위 단어만 남아 매번 비슷한 답이 나옵니다. 조별 과제에서 "현실적인 후보 안건 90%만 추려 그 안에서 결정하자"고 미리 합의해 두는 것과 비슷해요. 같은 질문에 매번 같은 답이 필요한 추출·분류 업무는 0.1 근처, 카피·아이디어 발산처럼 다양성이 필요한 일은 0.9~0.95 근처가 기본입니다.

한 줄 비유

견적 후보군을 누적 점유율 90%까지만 추리고 그 안에서 결재하는 방식입니다.

활용 예시

Case 1

OpenAI API — 창의적 글쓰기 기본값

B2C 마케팅 팀이 광고 헤드라인 100개를 한 번에 뽑거나 스토리텔링 초안을 받는 작업에서는 어휘 다양성이 필요합니다. OpenAI 공식 API 문서는 top_p 기본값을 1.0으로 두지만, 마케팅 카피·소설형 출력에는 0.9~0.95 구간을 권장합니다 ^[2]. 어휘 폭이 넓어지면서도 비문이나 환각은 줄어드는 균형점입니다 ^[2]. OpenAI 문서는 또한 같은 호출에서 temperature와 top_p를 동시에 조정하지 말고 한쪽만 움직이라는 운영 원칙을 명시합니다 ^[2].

Case 2

한국어 LLM 운영 — KoAlpaca·Polyglot-Ko 추론 기본 세팅

사내 한국어 챗봇을 운영하는 SaaS 팀이 KoAlpaca 같은 한국어 파인튜닝 모델을 호출할 때, 공개 추론 예제는 보통 temperature 0.9, top_p 0.95 조합을 기본값으로 둡니다 ^[4]. 한국어는 조사·어미 변화가 많아 후보가 한 쪽으로 쏠리기 쉬워서, top_p를 살짝 풀어주는 편이 자연스러운 문장으로 이어진다는 실무 관찰입니다 ^[4]. 같은 모델에서 top_p를 너무 낮게 두면 답변 반복률이 올라가고, 0.9 이상으로 맞추면 응답 다양성이 회복되는 경향이 GitHub 이슈 트래커에서도 반복적으로 보고됐습니다 ^[4].

Case 3

엔터프라이즈 추출형 작업 — 결정성 확보

한 금융사가 명세서·견적서 PDF에서 항목·금액·기일을 JSON으로 추출하는 파이프라인을 운영할 때는 같은 입력에 항상 같은 출력이 나와야 합니다. Anthropic 공식 가이드는 SQL 생성, 분류, 수치 추출처럼 답이 하나인 작업에 top_p 0.1 수준을 권장합니다 ^[3]. 가장 확률이 높은 좁은 핵 안에서만 토큰을 뽑으니 같은 입력에 같은 출력이 나오기 쉽다는 원리입니다 ^[3]. Anthropic 문서는 또한 결정적 작업에서는 temperature를 0 근처에 두고 top_p는 한쪽만 만지는 원칙을 함께 안내합니다 ^[3].

Case 4

ICLR 2020 발표 — 빔서치와의 비교 실험

원 논문 Holtzman 외(2019)는 GPT-2 large를 기준으로 빔서치, top-k, top-p를 비교했습니다 ^[1]. 빔서치는 같은 구절을 반복하는 "degeneration" 현상을 보였지만, top_p 0.95 nucleus sampling은 사람이 쓴 글의 perplexity 분포와 가장 근접한 출력을 만들어냈다고 보고했습니다 ^[1]. 이 논문은 ICLR 2020에 채택되며 GPT-3 이후 대부분의 상용 API가 top_p를 기본 파라미터로 채택하는 계기가 됐습니다 ^[1][2].

참고사항

사용 중인 API의 top_p 기본값을 확인합니다 (OpenAI 1.0, Anthropic 모델별 상이) ^[2][3]
자주 쓰는 프롬프트 하나를 골라 top_p 0.1과 0.9에서 각각 5회씩 호출해 답변 다양성을 비교합니다
추출·분류·SQL 업무는 top_p 0.1, 카피·아이디어 작업은 0.9~0.95로 분리해 사내 기본값을 합의합니다
temperature와 top_p를 동시에 만지지 말고 한 쪽만 고정해 실험을 단순화합니다 ^[2][3]
운영 환경에서는 top_p 값을 코드에 명시적으로 적어 둡니다 — 기본값 의존은 모델 업데이트 시 위험합니다 ^[2]

Top-p는 분포가 평평할 때 후보 수가 갑자기 늘어나면서 품질이 흔들리는 약점이 있습니다 ^[1]. 같은 0.9 값이라도 분포의 모양에 따라 후보가 10개로 좁혀질 때도 있고 200개까지 늘어날 때도 있어, 결과 분산이 예측하기 어렵습니다 ^[5]. OpenAI 공식 문서도 temperature와 동시에 조정하면 두 기법이 서로 상쇄되거나 증폭되어 디버깅이 어려워진다고 명시하고, 한쪽만 움직이라는 원칙을 일관되게 권합니다 ^[2]. 또한 같은 top_p 값이라도 모델이 달라지면 토큰 확률 분포 자체가 달라지므로, 모델 교체 시 값을 다시 튜닝해야 합니다 ^[3]. 운영팀이 자주 놓치는 함정은 "top_p가 낮으면 무조건 안정적"이라는 통념입니다 — 0.1 같은 좁은 핵에서는 모델이 차선책 토큰을 아예 보지 못해 정답이 후보군 밖으로 밀려나는 경우가 생기고, 이는 추출 작업에서 누락 오류로 나타납니다 ^[5].

진화 방향은 두 갈래입니다. 하나는 더 정교한 샘플링 기법으로의 이동입니다. min-p, typical sampling 같은 후속 기법이 arXiv에 발표되며 분포 모양에 더 잘 적응하는 방향으로 진화하고 있습니다 ^[5]. min-p는 1위 토큰 확률에 비례한 임계값을 쓰기 때문에 분포가 평평할 때도 후보 폭주를 막을 수 있어, top_p의 약점을 보완하는 후속 표준으로 자리잡는 중입니다 ^[5]. 다른 하나는 추론형 모델 흐름에서 top_p 자체가 사라지는 방향입니다. OpenAI o-시리즈와 Claude 추론 모델군은 temperature·top_p·top_k 같은 샘플링 파라미터 노출을 줄이고, 프롬프트로 행동을 제어하라고 안내합니다 ^[2][3]. 샘플링 옵션을 직접 만지는 시대에서, 모델이 내부적으로 답변 방식을 정하는 시대로 넘어가는 중이라는 점은 운영팀이 미리 알아 두어야 할 변화입니다.

이 용어와의 관계

유사 개념
Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.