Top-p
탑피
AI 활용 분야에서 쓰이는 용어로, LLM이 다음 단어를 고를 때 누적 확률이 정해진 임계값까지 도달하는 후보군 안에서만 단어를 뽑도록 강제하는 핵심 표본 추출 파라미터입니다.
Top-p는 LLM(Large Language Model, 거대 언어 모델)이 다음 단어를 고를 때 "누적 확률 몇 %까지의 후보만 검토할지" 미리 정해 두는 다이얼이에요. 예를 들어 0.9로 두면 가능성 높은 단어들을 누적 90%까지만 모아 그 안에서 하나를 뽑고, 0.1로 두면 거의 1위 단어만 남아 매번 비슷한 답이 나옵니다. 조별 과제에서 "현실적인 후보 안건 90%만 추려 그 안에서 결정하자"고 미리 합의해 두는 것과 비슷해요. 같은 질문에 매번 같은 답이 필요한 추출·분류 업무는 0.1 근처, 카피·아이디어 발산처럼 다양성이 필요한 일은 0.9~0.95 근처가 기본입니다.
견적 후보군을 누적 점유율 90%까지만 추리고 그 안에서 결재하는 방식입니다.
OpenAI API — 창의적 글쓰기 기본값
B2C 마케팅 팀이 광고 헤드라인 100개를 한 번에 뽑거나 스토리텔링 초안을 받는 작업에서는 어휘 다양성이 필요합니다. OpenAI 공식 API 문서는 top_p 기본값을 1.0으로 두지만, 마케팅 카피·소설형 출력에는 0.9~0.95 구간을 권장합니다 [2]. 어휘 폭이 넓어지면서도 비문이나 환각은 줄어드는 균형점입니다 [2]. OpenAI 문서는 또한 같은 호출에서 temperature와 top_p를 동시에 조정하지 말고 한쪽만 움직이라는 운영 원칙을 명시합니다 [2].
한국어 LLM 운영 — KoAlpaca·Polyglot-Ko 추론 기본 세팅
사내 한국어 챗봇을 운영하는 SaaS 팀이 KoAlpaca 같은 한국어 파인튜닝 모델을 호출할 때, 공개 추론 예제는 보통 temperature 0.9, top_p 0.95 조합을 기본값으로 둡니다 [4]. 한국어는 조사·어미 변화가 많아 후보가 한 쪽으로 쏠리기 쉬워서, top_p를 살짝 풀어주는 편이 자연스러운 문장으로 이어진다는 실무 관찰입니다 [4]. 같은 모델에서 top_p를 너무 낮게 두면 답변 반복률이 올라가고, 0.9 이상으로 맞추면 응답 다양성이 회복되는 경향이 GitHub 이슈 트래커에서도 반복적으로 보고됐습니다 [4].
엔터프라이즈 추출형 작업 — 결정성 확보
한 금융사가 명세서·견적서 PDF에서 항목·금액·기일을 JSON으로 추출하는 파이프라인을 운영할 때는 같은 입력에 항상 같은 출력이 나와야 합니다. Anthropic 공식 가이드는 SQL 생성, 분류, 수치 추출처럼 답이 하나인 작업에 top_p 0.1 수준을 권장합니다 [3]. 가장 확률이 높은 좁은 핵 안에서만 토큰을 뽑으니 같은 입력에 같은 출력이 나오기 쉽다는 원리입니다 [3]. Anthropic 문서는 또한 결정적 작업에서는 temperature를 0 근처에 두고 top_p는 한쪽만 만지는 원칙을 함께 안내합니다 [3].
ICLR 2020 발표 — 빔서치와의 비교 실험
원 논문 Holtzman 외(2019)는 GPT-2 large를 기준으로 빔서치, top-k, top-p를 비교했습니다 [1]. 빔서치는 같은 구절을 반복하는 "degeneration" 현상을 보였지만, top_p 0.95 nucleus sampling은 사람이 쓴 글의 perplexity 분포와 가장 근접한 출력을 만들어냈다고 보고했습니다 [1]. 이 논문은 ICLR 2020에 채택되며 GPT-3 이후 대부분의 상용 API가 top_p를 기본 파라미터로 채택하는 계기가 됐습니다 [1][2].
- 사용 중인 API의 top_p 기본값을 확인합니다 (OpenAI 1.0, Anthropic 모델별 상이) [2][3]
- 자주 쓰는 프롬프트 하나를 골라 top_p 0.1과 0.9에서 각각 5회씩 호출해 답변 다양성을 비교합니다
- 추출·분류·SQL 업무는 top_p 0.1, 카피·아이디어 작업은 0.9~0.95로 분리해 사내 기본값을 합의합니다
- temperature와 top_p를 동시에 만지지 말고 한 쪽만 고정해 실험을 단순화합니다 [2][3]
- 운영 환경에서는 top_p 값을 코드에 명시적으로 적어 둡니다 — 기본값 의존은 모델 업데이트 시 위험합니다 [2]
Top-p는 분포가 평평할 때 후보 수가 갑자기 늘어나면서 품질이 흔들리는 약점이 있습니다 [1]. 같은 0.9 값이라도 분포의 모양에 따라 후보가 10개로 좁혀질 때도 있고 200개까지 늘어날 때도 있어, 결과 분산이 예측하기 어렵습니다 [5]. OpenAI 공식 문서도 temperature와 동시에 조정하면 두 기법이 서로 상쇄되거나 증폭되어 디버깅이 어려워진다고 명시하고, 한쪽만 움직이라는 원칙을 일관되게 권합니다 [2]. 또한 같은 top_p 값이라도 모델이 달라지면 토큰 확률 분포 자체가 달라지므로, 모델 교체 시 값을 다시 튜닝해야 합니다 [3]. 운영팀이 자주 놓치는 함정은 "top_p가 낮으면 무조건 안정적"이라는 통념입니다 — 0.1 같은 좁은 핵에서는 모델이 차선책 토큰을 아예 보지 못해 정답이 후보군 밖으로 밀려나는 경우가 생기고, 이는 추출 작업에서 누락 오류로 나타납니다 [5].
진화 방향은 두 갈래입니다. 하나는 더 정교한 샘플링 기법으로의 이동입니다. min-p, typical sampling 같은 후속 기법이 arXiv에 발표되며 분포 모양에 더 잘 적응하는 방향으로 진화하고 있습니다 [5]. min-p는 1위 토큰 확률에 비례한 임계값을 쓰기 때문에 분포가 평평할 때도 후보 폭주를 막을 수 있어, top_p의 약점을 보완하는 후속 표준으로 자리잡는 중입니다 [5]. 다른 하나는 추론형 모델 흐름에서 top_p 자체가 사라지는 방향입니다. OpenAI o-시리즈와 Claude 추론 모델군은 temperature·top_p·top_k 같은 샘플링 파라미터 노출을 줄이고, 프롬프트로 행동을 제어하라고 안내합니다 [2][3]. 샘플링 옵션을 직접 만지는 시대에서, 모델이 내부적으로 답변 방식을 정하는 시대로 넘어가는 중이라는 점은 운영팀이 미리 알아 두어야 할 변화입니다.
- 유사 개념Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- The Curious Case of Neural Text Degeneration — 학술 논문 · arXiv (Holtzman 외, ICLR 2020) · 2019-04-22 / 2020-02-14
- OpenAI API Reference — Chat Completions — 공식 문서 · OpenAI · 2026 기준
- Anthropic Messages API Documentation — 공식 문서 · Anthropic · 2026 기준
- KoAlpaca: 한국어 명령어 이해 오픈소스 언어모델 — 공식 저장소 · GitHub (이준범) · 2023
- Min-p Sampling: Turning Up the Heat — 학술 논문 · arXiv · 2024-07
- How do temperature, top-k, and top-p sampling differ? — 학술 FAQ · Sebastian Raschka (위스콘신대) · 2024
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.