프롬프트·AI 활용

Temperature

템퍼러처

AI 활용 분야에서 쓰이는 용어로, LLM이 다음 단어를 고를 때 확률 분포를 얼마나 평탄하게 만들지를 조절해 응답의 창의성과 일관성 사이를 사용자가 직접 제어하는 파라미터입니다.

쉬운 풀이

Temperature는 LLM(Large Language Model, 거대 언어 모델)이 다음 단어를 고를 때 얼마나 "안전한 선택"을 할지 정해 두는 다이얼이에요. 값이 0에 가까우면 가장 확률 높은 단어만 또박또박 고르고, 1을 넘으면 다양한 표현을 시도해요. 인턴 면접에서 정해진 답만 말할지, 자기 생각을 섞어 말할지 미리 정해 두는 옵션이라고 보면 됩니다. 같은 질문에 매번 같은 답이 필요한 분류·계산 업무는 0 근처, 카피라이팅·아이디어 발산처럼 다양성이 필요한 일은 1 근처가 기본이에요.

한 줄 비유

보고서를 "사양대로만" 쓸지 "여지를 두고" 쓸지 결재 전에 미리 정해 두는 옵션입니다.

활용 예시

Case 1

고객 문의 자동 분류 — temperature 0으로 같은 입력에 같은 라벨

B2C 운영팀이 매일 들어오는 고객 문의를 "환불·배송·계정·기타"로 분류하거나, 견적서 PDF에서 금액·기일을 JSON으로 추출하는 작업에서는 같은 입력에 항상 같은 라벨이 나와야 합니다. OpenAI 공식 가이드는 분류·추출·사실 응답에 temperature 0.0~0.3을 권장하고 ^[1], Anthropic 문서도 "분석·객관식 과제는 0에 가까운 값"을 안내합니다 ^[2]. 단, 2023년 arXiv 실증 연구는 temperature 0으로 30회 반복해도 부동소수점 연산과 GPU 병렬화 차이로 의미적으로 다른 출력이 다수 발생한다고 보고했습니다 ^[5].

Case 2

사내 챗봇·고객 상담 — 기본값 1.0으로 자연스러움 유지

ChatGPT·Claude의 채팅 인터페이스는 별도 지정이 없으면 temperature 1.0으로 작동합니다 ^[1][2]. 사내 FAQ 챗봇·일반 상담처럼 "같은 질문에 매번 똑같이 답하면 어색한" 영역이 이 구간입니다. Klarna가 2024년 OpenAI 기반 챗봇을 도입해 월 230만 건 문의를 처리하고 평균 해결 시간을 11분에서 2분 미만으로 단축한 사례도 일반 대화 영역에서 표준 설정을 유지한 사례입니다 ^[7].

Case 3

광고 카피·시나리오 발산 — 1.0~1.3으로 다양성 확보

카피라이팅·아이디어 발산처럼 "한 번에 여러 안을 받아 고르는" 업무에서는 값을 올립니다. 2024년 arXiv 논문 "Is Temperature the Creativity Parameter of Large Language Models?"는 같은 프롬프트로 1.0과 1.5에서 서사를 생성해 비교한 결과, temperature가 높을수록 신규성(novelty)은 약하게 증가하지만 비일관성(incoherence)도 같이 증가한다고 보고했습니다 ^[6]. 1.3 이상에서는 결과 검토 비용이 빠르게 늘어나 운영 비용 측면에서 손익이 갈리는 구간으로 정리됩니다 ^[6].

Case 4

코드·SQL 생성 — 0.0~0.2로 컴파일 가능성 우선

GitHub Copilot Chat·Cursor 같은 코드 도구는 컴파일 통과율과 테스트 통과율을 우선해 낮은 temperature를 기본값으로 둡니다. 2023년 arXiv 논문 "An Empirical Study of the Non-determinism of ChatGPT in Code Generation"은 같은 프롬프트로 코드 생성을 30회 반복했을 때 temperature가 높을수록 의미적으로 다른 코드가 더 많이 생성됨을 정량 측정했습니다 ^[5]. 업계 가이드는 코드·SQL·정규식 생성에 0.0~0.3 구간을 권장합니다 ^[4]. "버그가 있어도 매번 같은 버그가 나야 디버깅이 가능하다"는 운영 원칙입니다 ^[5].

참고사항

자주 쓰는 프롬프트를 하나 골라 temperature 0, 0.7, 1.0, 1.3 네 가지로 각각 5회씩 돌리고 결과를 모읍니다
출력이 같은지·달라지는지·얼마나 일관된지 표로 정리해, 어느 구간에서 검토 비용이 급증하는지 확인합니다
분류·추출·코드 업무는 0~0.3, 일반 대화는 0.7~1.0, 창작·브레인스토밍은 1.0~1.3 구간을 사내 기본값으로 합의합니다
temperature와 top_p를 동시에 조정하지 않고 한쪽만 움직이며 비교합니다 — 두 회사 공식 문서가 공통으로 권고하는 운영 원칙입니다 ^[1][2]
temperature 0이어도 완전 동일 결과를 보장하지 않는다는 점을 운영 매뉴얼에 명시하고, 회귀 테스트는 별도 시드·골든셋으로 관리합니다 ^[5]

temperature 0이 완전한 결정성을 보장한다는 통념은 정확하지 않습니다. 2023년 arXiv 실증 연구는 ChatGPT를 temperature 0으로 30회 반복 호출했을 때도 코드 출력이 의미적으로 갈리는 사례를 다수 확인했습니다 ^[5]. 부동소수점 연산 오차, GPU 병렬화 방식, 모델 버전 패치 같은 요인이 결정성을 흔드는 것으로 보고됐습니다 ^[5]. 또 "temperature를 올리면 창의적이 된다"는 통념도 약합니다 — 2024년 Peeperkorn et al. 연구는 신규성과 약한 양의 상관, 비일관성과 중간 정도의 양의 상관만 확인했고, 응집성·전형성과는 거의 무상관이라고 보고했습니다 ^[6]. 다이얼 하나로 "창의성"을 통제한다는 직관 자체가 과대평가됐다는 결론입니다 ^[6].

진화 방향은 두 갈래입니다. 하나는 더 정교한 샘플링으로의 이동입니다. top_p(nucleus)·top_k·min_p·반복 페널티(frequency·presence) 같은 보조 파라미터와의 조합이 표준이 되었고, 업계 가이드는 "temperature 또는 top_p 중 하나만 움직이는" 원칙을 일관되게 권합니다 ^[1][4]. 다른 하나는 추론형 모델 흐름에서 temperature 자체가 사라지는 방향입니다. OpenAI o1·o3 시리즈는 temperature 파라미터를 기본 1로 고정해 사용자 조정을 받지 않으며, Anthropic도 추론 모델군에서 동일한 흐름을 따르고 있습니다 ^[2]. 샘플링 옵션을 직접 만지는 시대에서, 모델이 내부적으로 답변 방식을 정하는 시대로 넘어가는 중이라는 점은 운영팀이 미리 알아 두어야 할 변화입니다 ^[2].

이 용어와의 관계

유사 개념
Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.