Tree of Thoughts
ToT
AI 활용 분야에서 쓰이는 용어로, Chain-of-Thought를 한 단계 확장해 여러 후보 풀이 경로를 트리 구조로 펼친 다음 가장 좋은 경로를 골라 답하도록 만든 LLM 추론 기법입니다.
CoT가 "답에 이르는 길을 한 줄로 풀어 쓰게 한다"면, ToT는 "여러 갈래 길을 동시에 펼쳐 놓고 가장 좋은 길을 골라 가게 한다"고 보면 돼요. 조별 과제에서 결론을 한 번에 정하지 말고 후보 아이디어를 3개 띄워 점수로 비교한 다음 가장 좋은 안만 다듬는 것과 같은 절차입니다. 답이 막혔을 때 되돌아와 다른 가지를 시도할 수 있다는 점이 직선형 풀이와 다릅니다. 수학·게임·복잡한 계획처럼 한 번에 못 푸는 문제에서 정답률이 크게 오르는 대신 호출 횟수가 늘어 비용·지연도 함께 커집니다.
견적 한 통만 받지 말고 세 군데 받아 비교하고 조건을 조정해 가며 고르는 방식입니다.
Princeton+DeepMind 원논문 — Game of 24 정답률 4% → 74%
Yao et al. 원논문은 GPT-4를 동일하게 쓰고 프롬프트 방식만 바꿔 Game of 24(숫자 4개로 24 만들기) 100문제를 측정했습니다.[1] 표준 입출력 프롬프트 정답률 7.3%, CoT 4.0%였던 결과가 ToT(b=5 BFS, 폭 5짜리 너비 우선 탐색)에서 74%까지 올랐습니다.[1] 단계마다 후보 식을 5개 만들고 모델이 "sure / likely / impossible"로 평가해 가능성 높은 가지만 남기는 절차입니다.[1] 영업 견적의 할인 조합 시뮬레이션처럼 분기마다 후보 평가가 필요한 다단 산수 업무에 그대로 옮길 수 있습니다.
동일 논문 — Creative Writing·Mini Crosswords 동시 개선
같은 논문은 4문단 글쓰기 과제(Creative Writing)에서 GPT-4 자체 평가 점수를 IO 6.19, CoT 6.93에서 ToT 7.56으로 끌어올렸고, 사람 평가 100쌍 중 41쌍에서 ToT를 더 일관성 있다고 판정했습니다.[1] 5×5 미니 크로스워드에서는 IO·CoT 정답률 1% 안팎에서 ToT는 단어 단위 60%, 게임 단위 20%까지 올랐습니다.[1] 보고서 목차 분기 비교·카피 후보 비교처럼 "여러 안을 만들고 골라야 하는" 업무에 적용 사례가 명시됐습니다.
IBM watsonx 공식 가이드 — 엔터프라이즈 적용 정리
IBM은 watsonx 프롬프트 엔지니어링 가이드에서 ToT를 "에이전틱 프롬프팅" 챕터에 정식 편성하고, 적용 사례로 스도쿠 풀이, Game of 24, 창의적 글쓰기, 5×5 크로스워드 네 가지를 들고 있습니다.[2] 가이드는 ToT가 다단 계획·전략적 의사결정 업무에서 정답률을 끌어올리지만 "여러 경로를 동시 유지·역추적해야 해 계산 비용이 커진다"는 점을 함께 명시합니다.[2] 단순 분류·짧은 사실 조회에는 권하지 않고, 작업 유형에 따라 라우팅으로 분리 운용하라는 입장입니다.[2]
후속 학계 — 코드 생성·복잡 계획으로 확장
2024년 12월 arXiv에 공개된 Tree-of-Code 논문은 ToT의 가지치기 절차를 코드 생성으로 옮겨, 각 노드를 "완전한 실행 가능한 프로그램"으로 두고 실행 결과를 평가 신호로 사용하는 구조를 제안했습니다.[6] 또한 NeurIPS 2024의 IBM Research "Thought of Search" 연구는 ToT가 가치 낮은 가지를 반복 탐색해 비용이 커지는 점을 지적하며, 계획 휴리스틱을 결합한 효율화 방향을 제시했습니다.[2] 코드 디버깅·일정 계획·외주 후보 비교처럼 분기 평가가 필요한 작업으로 가지를 뻗고 있는 흐름입니다.
- 평소 단답으로 받던 질문을 "후보를 3개 만들고, 각 후보를 1~10점으로 평가한 뒤 가장 점수가 높은 안을 골라 주세요"로 바꿔 봅니다
- 견적·일정·카피처럼 분기 비교가 필요한 작업에 ToT 방식을 적용하고, 단순 분류·짧은 사실 조회에는 일반 프롬프트를 유지합니다
- 후보를 만드는 단계와 평가하는 단계를 별도 메시지로 나눠 모델이 "생성"과 "심사"를 분리 수행하도록 합니다
- 가지 폭(b=후보 수)과 깊이(단계 수)를 적어 두고, 작업별로 b=3·5·7을 바꿔 가며 정답률·응답 시간·토큰 비용을 비교합니다
- princeton-nlp/tree-of-thought-llm GitHub 저장소의 Game of 24 프롬프트를 그대로 받아 사내 데이터 1건에 적용해 봅니다
원논문 자체가 ToT는 단계마다 여러 LLM 호출이 필요해 단일 CoT 대비 토큰·지연이 수 배에서 수십 배 늘 수 있다고 밝힙니다.[1] NeurIPS 2024의 IBM Research 후속 연구는 ToT가 가치 낮은 가지를 반복 탐색해 비용이 커지는 "search inefficiency" 문제를 정량적으로 지적했고, 계획 휴리스틱이 결합돼야 실제 업무에서 의미 있는 효율이 나온다고 결론짓습니다.[2] 단순 분류·짧은 사실 조회에서는 오히려 CoT보다 느리고 정답률 차이도 작아 권하지 않는다는 입장입니다.[2] 평가 단계의 점수 자체가 모델이 스스로 부여한 값이라, 어려운 도메인에서는 "그럴듯해 보이는 가지"가 살아남아 잘못된 답으로 수렴할 수 있다는 점도 함께 지적되고 있습니다.[5] 후속 연구들은 평가자를 별도 모델·외부 검증기로 분리하거나 가지치기 휴리스틱을 도입해 이 약점을 보완하려는 시도가 이어지고 있습니다.[6]
진화 방향은 두 갈래입니다. 첫째는 ToT의 탐색 절차를 학습 단계에 내재화한 추론 모델(Reasoning Model) 흐름으로, 2024년 9월 발표된 OpenAI o1은 강화학습으로 긴 추론을 모델 안에 넣어 사용자가 별도 ToT 프롬프트를 짜지 않아도 비슷한 효과를 내는 방향을 택했습니다.[4] 둘째는 ToT의 가지치기 구조를 코드 생성·계획 도메인으로 확장하는 Tree-of-Code, Thought of Search 같은 후속 연구로, 각 노드를 실행 가능한 산출물(코드·계획)로 바꿔 평가 신호를 명확히 하는 방향입니다.[6] 현재 시점에서는 단순 작업은 일반 모델, 복잡 추론은 추론 모델 또는 ToT 계열로 라우팅하는 분리 운용이 표준 패턴으로 자리잡고 있습니다.[2][4]
- 유사 개념Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models — 학술 논문 · arXiv/NeurIPS · 2023-05 (Yao et al., Princeton+DeepMind)
- What is Tree Of Thoughts Prompting? — 제품 공식 문서 · IBM Think · 2024
- princeton-nlp/tree-of-thought-llm (공식 코드·프롬프트 저장소) — 회사 공식 저장소 · Princeton NLP · 2023
- Learning to reason with LLMs — 회사 공식 발표 · OpenAI · 2024-09 (o1 발표, ToT 계열 추론 비교 맥락)
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models (NeurIPS 2023 Proceedings) — 학술 논문 · NeurIPS 2023 · 2023-12 (확정판 PDF)
- Tree-of-Code: A Tree-Structured Exploring Framework for End-to-End Code Generation — 학술 논문 · arXiv · 2024-12 (ToT 코드 생성 확장)
- Tree of Thoughts (ToT) — Prompt Engineering Guide — 교육 자료 · DAIR.AI · 2024 (보조 참조)
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.