Chain of Thought
CoT
AI 활용 분야에서 쓰이는 Chain-of-Thought(생각의 사슬)의 약자로, LLM에게 답을 곧장 내놓지 말고 풀이 과정을 단계별로 노출하라고 지시해 정답률을 끌어올리는 프롬프트 기법입니다.
수학 시험에서 정답만 쓰지 말고 풀이 과정을 같이 적으라고 시키면 더 정확해지는 것과 같은 원리예요. LLM에게도 "바로 답하지 말고 단계별로 생각해 봐"라고 부탁하면, 모델이 중간 계산을 노출하는 과정에서 스스로 오답을 잡아냅니다. 조별 과제 발표에서 결론만 말하는 친구보다 근거를 한 단계씩 풀어 말하는 친구가 교수님 평가가 좋은 것과 비슷해요. 수학·논리·다단 추론처럼 한 번에 못 푸는 문제에 특히 효과가 크고, "단계별로 풀어 줘" 한 줄만 덧붙여도 같은 모델·같은 질문의 정답률이 눈에 띄게 달라집니다.
견적서를 던지지 말고 단가표부터 한 줄씩 적어 달라고 요청하는 방식입니다.
Google PaLM 540B — 초등 수학 문장제 정답률 17%에서 57%로
Wei et al. 논문은 PaLM 540B 모델에 8개의 단계별 풀이 예시를 붙여 GSM8K 수학 문장제 벤치마크를 측정했습니다.[1] 표준 Few-shot 프롬프트는 정답률 17.9%에 그쳤지만, 같은 예시를 풀이 과정과 함께 보여주는 CoT 프롬프트를 붙이자 56.9%까지 올랐습니다.[1] 외부 계산기를 함께 쓰면 58%로 당시 SOTA였던 GPT-3 미세조정+검증기 조합(55%)을 넘어섰습니다.[1] 영업 견적이나 단가 계산 같은 다단 산수 업무에 그대로 적용 가능합니다.
도쿄대 Kojima et al. — "단계별로 생각해 봅시다" 한 줄의 효과
2022년 5월 Kojima 외 연구진은 예시 없이 "Let's think step by step" 한 문장만 추가하는 Zero-shot CoT를 제안했습니다.[3] InstructGPT(text-davinci-002)에 적용했을 때 MultiArith 산수 과제 정답률이 17.7%에서 78.7%로, GSM8K가 10.4%에서 40.7%로 올랐습니다.[3] 별도 예시를 만들 시간이 없는 실무자가 회의록 요약·계약서 검토 같은 다단 논리 작업에 한 줄로 끼워 넣어 쓰는 방식입니다.
Anthropic Claude 공식 문서 — 복잡 문서·다단 계획 표준 권고
Anthropic는 공식 프롬프트 엔지니어링 가이드에서 "Claude에게 생각할 공간을 주면 복잡한 작업의 정답률과 일관성이 크게 향상된다"고 안내합니다.[4] 권고 방식은 <thinking> 태그 안에 단계를 적게 한 뒤 <answer> 태그로 최종 답을 내보내는 구조입니다.[4] 분기 OKR 초안 작성, 외주 검수 체크리스트 분해처럼 변수가 여럿 얽힌 작업에 적합하며, 단순 분류·짧은 사실 조회에는 권하지 않는다고 명시합니다.[4]
Princeton Yao et al. — Tree of Thoughts로 직선형 한계 보완
2023년 5월 Princeton의 Yao 외 연구진은 CoT를 트리 구조로 확장한 Tree of Thoughts(ToT)를 발표했습니다.[5] 게임 24(네 숫자로 24 만들기) 과제에서 GPT-4의 CoT 단독 정답률은 4%였지만, ToT를 적용하자 74%로 올랐습니다.[5] 코드 디버깅처럼 가지를 쳐서 가설을 비교해야 하는 작업에 적합하며, CoT의 직선형 추론 한계를 보완하는 후속 연구로 인용되고 있습니다.[5]
- 평소 한 줄로 묻던 질문 끝에 "단계별로 풀이 과정을 적어 주세요" 한 문장을 추가해 봅니다.
- 풀이 단계를 따로 출력시키고 싶을 때
<thinking>...</thinking><answer>...</answer>구조로 분리합니다. - 영업 견적·재고 계산 같은 다단 산수에는 풀이 예시 2~3개를 프롬프트에 함께 넣어 Few-shot CoT로 씁니다.
- 단순 분류·짧은 사실 조회에는 CoT를 끄고, 다단 분석·복잡 문서에만 켜는 식으로 작업별로 분리합니다.
- 같은 질문을 일반 모델 CoT와 o1·Claude Extended Thinking 같은 추론 모델에 동시에 던져 정답률·지연 시간을 비교해 봅니다. 비용 차이까지 함께 기록해 두면, 어떤 작업에 어떤 모델을 붙일지 사내 가이드로 정리하기가 수월합니다.
Wei et al. 논문은 CoT가 "충분히 큰 모델에서만 등장하는 emergent ability"라고 명시했습니다.[1] 100B 파라미터 미만 모델에서는 단계별 사고가 오히려 오답을 늘리는 구간도 보고되었습니다.[1] 또한 모델이 만들어낸 풀이 단계가 실제 추론 과정을 그대로 반영한다는 보장은 없습니다. Anthropic는 그럴듯한 설명을 사후적으로 덧붙이는 위험이 있어, 안전·법무 분야에서는 풀이 자체를 그대로 신뢰하지 말라고 권고합니다.[4] 토큰 사용량이 늘어 비용과 응답 지연이 함께 커지는 점도 운영 부담입니다. 단순 분류·짧은 사실 조회에 무조건 CoT를 켜면 같은 작업에 3~5배 토큰을 더 쓰면서도 정답률 개선은 거의 없는 구간이 자주 보고됩니다.[4]
2024년 9월 OpenAI o1 발표 이후 흐름은 두 갈래로 나뉘었습니다.[7] 첫째는 사용자가 프롬프트로 유도하는 기존 CoT, 둘째는 학습 단계에서 강화학습으로 긴 추론을 내재화한 추론 모델(Reasoning Model)입니다.[6][7] 추론 모델은 응답 전에 별도의 "reasoning token"을 소비해 시간이 더 걸리는 대신 정답률이 올라가는 구조입니다.[7] 사용자가 프롬프트에 "단계별로 생각하라"고 적어 줄 필요가 줄어드는 대신, 어떤 작업에 어느 정도의 추론 예산을 할당할지가 새로운 설계 변수로 자리 잡고 있습니다.[7] 현재 시점에서는 단순 작업은 일반 모델, 복잡 추론은 추론 모델로 라우팅하는 분리 운용이 권장됩니다.[4][7] CoT 자체는 사라지지 않고, 일반 모델 프롬프트의 기본 옵션과 추론 모델의 학습 신호로 양쪽에 흡수되는 흐름입니다.[2][7]
- 다음 단계Tree of Thoughts직선형 CoT를 트리 구조로 확장한 후속 기법입니다
- 다음 단계Reasoning ModelCoT를 학습 단계에서 내재화한 모델 계열입니다
- 대표 도구Extended ThinkingClaude에서 CoT를 켜고 끄는 공식 기능입니다
- 유사 개념Few-shot예시를 붙여 원하는 결과를 유도하는 사촌 기법입니다
- 기반 기술Prompt EngineeringCoT가 속한 프롬프트 설계의 상위 분야입니다
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models — 학술 논문 · arXiv/NeurIPS · 2022-01 (Wei et al., Google Research)
- Language Models Perform Reasoning via Chain of Thought — 회사 공식 블로그 · Google Research · 2022-05
- Large Language Models are Zero-Shot Reasoners — 학술 논문 · arXiv/NeurIPS · 2022-05 (Kojima et al., Tokyo대)
- Let Claude think (chain of thought) — Prompting best practices — 제품 공식 문서 · Anthropic · 2024
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models — 학술 논문 · arXiv/NeurIPS · 2023-05 (Yao et al., Princeton)
- Reasoning model — 참고 자료 · Wikipedia · 2024 (test-time compute 정의 참조용)
- Building with extended thinking — 제품 공식 문서 · Anthropic · 2025
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.