프롬프트·AI 활용

Tree of Thoughts

ToT

AI 활용 분야에서 쓰이는 용어로, Chain-of-Thought를 한 단계 확장해 여러 후보 풀이 경로를 트리 구조로 펼친 다음 가장 좋은 경로를 골라 답하도록 만든 LLM 추론 기법입니다.

쉬운 풀이

CoT가 "답에 이르는 길을 한 줄로 풀어 쓰게 한다"면, ToT는 "여러 갈래 길을 동시에 펼쳐 놓고 가장 좋은 길을 골라 가게 한다"고 보면 돼요. 조별 과제에서 결론을 한 번에 정하지 말고 후보 아이디어를 3개 띄워 점수로 비교한 다음 가장 좋은 안만 다듬는 것과 같은 절차입니다. 답이 막혔을 때 되돌아와 다른 가지를 시도할 수 있다는 점이 직선형 풀이와 다릅니다. 수학·게임·복잡한 계획처럼 한 번에 못 푸는 문제에서 정답률이 크게 오르는 대신 호출 횟수가 늘어 비용·지연도 함께 커집니다.

한 줄 비유

견적 한 통만 받지 말고 세 군데 받아 비교하고 조건을 조정해 가며 고르는 방식입니다.

활용 예시

Case 1

Princeton+DeepMind 원논문 — Game of 24 정답률 4% → 74%

Yao et al. 원논문은 GPT-4를 동일하게 쓰고 프롬프트 방식만 바꿔 Game of 24(숫자 4개로 24 만들기) 100문제를 측정했습니다.^[1] 표준 입출력 프롬프트 정답률 7.3%, CoT 4.0%였던 결과가 ToT(b=5 BFS, 폭 5짜리 너비 우선 탐색)에서 74%까지 올랐습니다.^[1] 단계마다 후보 식을 5개 만들고 모델이 "sure / likely / impossible"로 평가해 가능성 높은 가지만 남기는 절차입니다.^[1] 영업 견적의 할인 조합 시뮬레이션처럼 분기마다 후보 평가가 필요한 다단 산수 업무에 그대로 옮길 수 있습니다.

Case 2

동일 논문 — Creative Writing·Mini Crosswords 동시 개선

같은 논문은 4문단 글쓰기 과제(Creative Writing)에서 GPT-4 자체 평가 점수를 IO 6.19, CoT 6.93에서 ToT 7.56으로 끌어올렸고, 사람 평가 100쌍 중 41쌍에서 ToT를 더 일관성 있다고 판정했습니다.^[1] 5×5 미니 크로스워드에서는 IO·CoT 정답률 1% 안팎에서 ToT는 단어 단위 60%, 게임 단위 20%까지 올랐습니다.^[1] 보고서 목차 분기 비교·카피 후보 비교처럼 "여러 안을 만들고 골라야 하는" 업무에 적용 사례가 명시됐습니다.

Case 3

IBM watsonx 공식 가이드 — 엔터프라이즈 적용 정리

IBM은 watsonx 프롬프트 엔지니어링 가이드에서 ToT를 "에이전틱 프롬프팅" 챕터에 정식 편성하고, 적용 사례로 스도쿠 풀이, Game of 24, 창의적 글쓰기, 5×5 크로스워드 네 가지를 들고 있습니다.^[2] 가이드는 ToT가 다단 계획·전략적 의사결정 업무에서 정답률을 끌어올리지만 "여러 경로를 동시 유지·역추적해야 해 계산 비용이 커진다"는 점을 함께 명시합니다.^[2] 단순 분류·짧은 사실 조회에는 권하지 않고, 작업 유형에 따라 라우팅으로 분리 운용하라는 입장입니다.^[2]

Case 4

후속 학계 — 코드 생성·복잡 계획으로 확장

2024년 12월 arXiv에 공개된 Tree-of-Code 논문은 ToT의 가지치기 절차를 코드 생성으로 옮겨, 각 노드를 "완전한 실행 가능한 프로그램"으로 두고 실행 결과를 평가 신호로 사용하는 구조를 제안했습니다.^[6] 또한 NeurIPS 2024의 IBM Research "Thought of Search" 연구는 ToT가 가치 낮은 가지를 반복 탐색해 비용이 커지는 점을 지적하며, 계획 휴리스틱을 결합한 효율화 방향을 제시했습니다.^[2] 코드 디버깅·일정 계획·외주 후보 비교처럼 분기 평가가 필요한 작업으로 가지를 뻗고 있는 흐름입니다.

참고사항

평소 단답으로 받던 질문을 "후보를 3개 만들고, 각 후보를 1~10점으로 평가한 뒤 가장 점수가 높은 안을 골라 주세요"로 바꿔 봅니다
견적·일정·카피처럼 분기 비교가 필요한 작업에 ToT 방식을 적용하고, 단순 분류·짧은 사실 조회에는 일반 프롬프트를 유지합니다
후보를 만드는 단계와 평가하는 단계를 별도 메시지로 나눠 모델이 "생성"과 "심사"를 분리 수행하도록 합니다
가지 폭(b=후보 수)과 깊이(단계 수)를 적어 두고, 작업별로 b=3·5·7을 바꿔 가며 정답률·응답 시간·토큰 비용을 비교합니다
princeton-nlp/tree-of-thought-llm GitHub 저장소의 Game of 24 프롬프트를 그대로 받아 사내 데이터 1건에 적용해 봅니다

원논문 자체가 ToT는 단계마다 여러 LLM 호출이 필요해 단일 CoT 대비 토큰·지연이 수 배에서 수십 배 늘 수 있다고 밝힙니다.^[1] NeurIPS 2024의 IBM Research 후속 연구는 ToT가 가치 낮은 가지를 반복 탐색해 비용이 커지는 "search inefficiency" 문제를 정량적으로 지적했고, 계획 휴리스틱이 결합돼야 실제 업무에서 의미 있는 효율이 나온다고 결론짓습니다.^[2] 단순 분류·짧은 사실 조회에서는 오히려 CoT보다 느리고 정답률 차이도 작아 권하지 않는다는 입장입니다.^[2] 평가 단계의 점수 자체가 모델이 스스로 부여한 값이라, 어려운 도메인에서는 "그럴듯해 보이는 가지"가 살아남아 잘못된 답으로 수렴할 수 있다는 점도 함께 지적되고 있습니다.^[5] 후속 연구들은 평가자를 별도 모델·외부 검증기로 분리하거나 가지치기 휴리스틱을 도입해 이 약점을 보완하려는 시도가 이어지고 있습니다.^[6]

진화 방향은 두 갈래입니다. 첫째는 ToT의 탐색 절차를 학습 단계에 내재화한 추론 모델(Reasoning Model) 흐름으로, 2024년 9월 발표된 OpenAI o1은 강화학습으로 긴 추론을 모델 안에 넣어 사용자가 별도 ToT 프롬프트를 짜지 않아도 비슷한 효과를 내는 방향을 택했습니다.^[4] 둘째는 ToT의 가지치기 구조를 코드 생성·계획 도메인으로 확장하는 Tree-of-Code, Thought of Search 같은 후속 연구로, 각 노드를 실행 가능한 산출물(코드·계획)로 바꿔 평가 신호를 명확히 하는 방향입니다.^[6] 현재 시점에서는 단순 작업은 일반 모델, 복잡 추론은 추론 모델 또는 ToT 계열로 라우팅하는 분리 운용이 표준 패턴으로 자리잡고 있습니다.^[2][4]

이 용어와의 관계

유사 개념
Prompt Version같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Library같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Persona Prompting같은 프롬프트·AI 활용 갈래에서 자주 함께 등장하는 개념입니다.