AI 트렌드

Extended Thinking

익스텐디드 씽킹

AI 활용 분야에서 Anthropic이 2025년에 도입한 기능으로, Claude가 답하기 전에 정해진 토큰 예산만큼 내부적으로 길게 생각한 다음 응답하도록 추론 깊이를 사용자가 직접 조절하는 모드입니다.

쉬운 풀이

시험 전날 1시간 더 본 친구가 답을 더 잘 쓰듯이, 모델에게 생각할 시간을 더 주면 정답률이 올라가는 옵션이 Extended Thinking입니다. Claude한테 "답하기 전에 토큰 예산만큼 머릿속으로 풀어봐"라고 시간을 더 주는 토글이라고 보면 돼요. 조별 과제 발표 직전, 슬라이드를 한 번 더 훑어보고 단상에 오르는 친구가 질문을 덜 막히는 것과 같은 원리입니다. 단순 검색에는 끄고, 수학 문제·계약서 검토 같은 어려운 작업에만 켜는 식으로 골라 쓰면 비용을 아낄 수 있어요.

한 줄 비유

보고서 결재 전, 사고 예산을 먼저 승인하고 검토 시간을 늘리는 옵션입니다.

활용 예시

Case 1

Anthropic Claude 3.7 Sonnet — 수학·과학 벤치마크 정답률 향상

Anthropic 공식 발표에 따르면, Claude 3.7 Sonnet은 Extended Thinking을 켤 경우 MATH 500 벤치마크에서 96.2%, AIME 2024에서 80.0%, GPQA Diamond에서 84.8%를 기록했습니다.^[1][3] 사고 토큰을 늘릴수록 정답률이 로그 곡선을 그리며 상승하는 그래프가 공식 자료에 공개되어 있고, 64K 사고 예산과 병렬 테스트 타임 컴퓨트를 결합한 조건에서 측정된 수치입니다.^[1] 수능 킬러 문항 풀이, 입찰가 산정 시뮬레이션처럼 한 번의 계산 실수가 결과를 뒤집는 업무에 적합합니다.

Case 2

Claude Code Plan Mode — 레거시 코드 마이그레이션 사전 계획

Anthropic 공식 문서는 Extended Thinking이 "코드 리팩터링, 마이그레이션 계획 등 다단계 코딩 과제"에 권장된다고 명시합니다.^[2] Claude Code의 Plan Mode는 이 기능을 활용해 파일을 수정하기 전에 의존 관계를 먼저 분석하고 계획서를 출력합니다. API에서는 budget_tokens를 1,024 이상으로 지정해 깊이를 조절할 수 있고, 사고 토큰도 출력 토큰과 동일하게 백만 토큰당 15달러로 청구됩니다.^[2] 사내 레거시 코드 마이그레이션 견적 산정에 그대로 적용 가능합니다.

Case 3

금융 분석 — Bridgewater AIA Labs 시장 가설 검증

Anthropic 공식 사례에 따르면, 헤지펀드 Bridgewater Associates의 AIA Labs는 Claude의 Extended Thinking을 투자 분석 파이프라인에 도입해 시장 가설을 다단계로 검증하는 워크플로에 적용했습니다.^[8] 거시 지표 → 자산군별 영향 → 시뮬레이션 결과를 한 응답 안에서 단계적으로 풀어내는 구조로, 기존에는 분석가가 며칠에 걸쳐 수행하던 작업입니다. 시장 조사, 규제 영향 분석, 신사업 타당성 검토처럼 여러 도메인을 교차 검증해야 하는 컨설팅·연구 부서에 활용 가능합니다.

Case 4

법률·계약 검토 — Thomson Reuters CoCounsel

Anthropic 사례에 따르면, 법률 정보 서비스 Thomson Reuters는 CoCounsel 제품에 Claude Extended Thinking을 적용해 계약서·판례 비교 정확도를 끌어올렸습니다.^[8] 변호사가 "이 조항이 표준에서 얼마나 벗어났는지" 물으면, 모델이 답하기 전에 관련 판례·표준 양식·고객 정책을 내부에서 단계적으로 비교한 다음 결과를 정리합니다. 사내 법무팀이 NDA·MSA 검토에 그대로 적용해 표준 약관 이탈 조항을 자동으로 플래깅하는 워크플로에 대응됩니다.

참고사항

Claude.ai에서 Extended Thinking 토글을 켜고, 같은 문제를 일반 모드와 비교해 응답 시간·정답을 한 주간 기록합니다.
API에서 thinking: { type: "enabled", budget_tokens: 16000 }처럼 사고 예산을 단계별로 1K → 16K → 64K로 바꿔 보며 비용·정확도 변화를 측정합니다.^[2]
단순 조회·짧은 변환 작업에는 끄고, 다단계 계산·디버깅·계약 검토 같은 복잡 추론에만 켜도록 사내 라우팅 가이드를 정리합니다.
Claude Code Plan Mode를 사용해 마이그레이션 같은 다단계 작업의 사전 계획서를 받아 보고, 직접 수정한 계획과 비교합니다.
청구서에 사고 토큰이 합산된다는 점을 감안해, 한 주간 토큰 사용량을 추적해 ROI를 계산하고 "어떤 작업에 어느 정도 예산을 줄지" 사내 표준을 정합니다.^[2]

Extended Thinking은 비용·지연 시간이 함께 늘어납니다. 사고 토큰은 최종 답변에 보이지 않더라도 출력 토큰과 동일한 단가로 청구되며, 한 응답에 최대 128K까지 사고가 누적될 수 있습니다.^[2] Anthropic 공식 글은 "사고 과정이 평소 Claude 응답보다 덜 다듬어지고 비인격적일 수 있으며, 사고 내용이 모델의 실제 의사결정을 충실히 반영한다는 보장은 없다"고 명시했습니다.^[1] 즉, 표시되는 사고 흔적을 그대로 안전·법무 근거로 삼는 것은 권하지 않습니다. 단순 사실 조회나 짧은 분류 작업에서는 과잉 처리이며, 잘못된 추론 경로에 갇혀 같은 오답을 더 정교하게 반복하는 사례도 학계에서 보고됩니다.

진화 방향은 세 갈래로 정리됩니다.

적응형 사고. Anthropic은 후속 모델에서 사용자가 일일이 토글을 켜지 않아도 모델이 질의 복잡도에 따라 사고 깊이를 스스로 조절하는 "adaptive thinking"을 도입했습니다.^[4]
도구 사용·캐싱과의 결합. 공식 문서는 Extended Thinking이 함수 호출(tool_use), 프롬프트 캐싱과 함께 쓰일 때 효과가 커진다고 안내합니다.^[2]
업계 표준화. OpenAI o1·o3, DeepSeek R1, Google Gemini 2.5 Thinking 등 주요 프런티어 모델이 모두 같은 갈래의 "사고 시간 확장" 모드를 기본 탑재하면서, "단순 작업은 일반 모드, 복잡 다단 추론만 Extended Thinking으로 라우팅"하는 분리 운용이 표준 권고로 자리 잡고 있습니다.^[6][7]

이 용어와의 관계

유사 개념
Adaptive Reasoning같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Caching같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Plugin Marketplace같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.