AI 트렌드

Agentic Coding

에이전틱 코딩

AI 활용 개발 분야에서 쓰이는 용어로, AI 에이전트가 사람이 지시한 목표를 받아 코드 작성·실행·검증을 자율적으로 반복하며 작업을 처리하는 개발 방식입니다.

쉬운 풀이

Agentic Coding은 "AI에게 과제 주제만 던지면, AI가 자료조사·초안 작성·검토까지 알아서 끝내고 결과만 보고하는 방식"이에요. 과제를 통째로 후배 인턴에게 맡기고 가끔 진행 상황만 확인하면 되는 인턴 운영과 비슷합니다. 차이가 있다면 이 인턴은 코드를 짜고, 직접 실행해 보고, 잘못 짠 부분은 다시 고치는 일까지 혼자서 반복한다는 점이에요. 그래서 요즘은 "코딩을 한다"기보다 "코딩하는 에이전트를 지휘한다"는 표현이 더 정확하다고 보는 분들이 많습니다.

한 줄 비유

과업지시서만 받고 결과물까지 가져오는 외주 개발팀

활용 예시

Case 1

Anthropic Claude Code — SWE-bench Verified 77.2% 달성

Anthropic은 2025년 9월 29일 공개한 Claude Sonnet 4.5 발표에서 동일 모델 기반 Claude Code가 SWE-bench Verified에서 77.2% 해결률을 기록했다고 밝혔습니다.^[4] 같은 벤치마크에서 2024년 3월 Devin이 처음 기록한 점수는 13.86%(전체의 25% 무작위 표본 기준)였고^[3], 사람 개발자 평균은 약 58%로 보고됩니다.^[6] 1년 반 만에 자율 에이전트가 사람 평균을 추월한 셈입니다. Claude Code는 터미널에서 동작하며 코드베이스 탐색·수정·테스트·커밋을 사람이 끼지 않은 상태로 끝까지 수행합니다.^[1]

Case 2

카카오페이 AI 플랫폼팀 — SDD로 에이전틱 코딩 정착

카카오페이 AI 플랫폼팀은 if(kakao) 2025 발표를 정리한 기술 블로그에서 에이전틱 코딩을 팀 단위로 정착시키기 위해 SDD(Spec-Driven Development, 사양 주도 개발)를 도입했다고 밝혔습니다.^[7] AI에게 "알아서 만들어줘"라고 던지면 환각·중복 코드가 누적되는 문제를 막기 위해, Constitution(원칙)·Specify(사양)·Plan(계획)·Tasks(작업)·Implement(구현) 단계를 미리 정의한 뒤 AI가 그 위에서만 움직이도록 했습니다.^[7] 결과적으로 개발자의 역할은 "코드를 쓰는 사람"에서 "사양을 검증하고 테스트를 설계하는 사람"으로 이동했다고 정리했습니다.

Case 3

Cognition Devin — 6개월 만에 기업가치 20억 달러

2023년 11월 설립된 Cognition Labs는 2024년 3월 Devin을 "세계 최초의 완전 자율 AI 소프트웨어 엔지니어"로 공개했습니다.^[3] 한 달 만에 Founders Fund 주도로 1억 7천 5백만 달러를 추가 조달했고, 기업가치는 6개월 만에 20억 달러로 평가됐습니다.^[8] Devin은 환경 설정·자료 조사·코드 편집·테스트 실행·배포까지 하나의 작업 큐로 처리하며, SWE-bench에서 직전 최고 1.96% 대비 13.86%라는 수치를 기록해 자율 에이전트 카테고리를 단독으로 열었습니다.^[3]

Case 4

Cursor 2.0 Composer Agent — 작업 사이클 30초 이내

Anysphere는 2025년 10월 29일 Cursor 2.0과 자체 모델 Composer를 공개했습니다.^[5] Composer는 코드베이스 의미 검색 도구가 내장된 에이전트형 모델로, 비슷한 지능의 모델 대비 4배 빠르고 한 번의 작업 사이클을 30초 이내에 마치도록 설계됐습니다.^[5] 새 인터페이스는 파일이 아닌 "에이전트 단위"로 화면을 재구성해, 깃 워크트리·원격 머신을 이용해 여러 에이전트를 동시에 돌리고 결과만 모아 검토하도록 했습니다. 사내 브라우저 도구로 자기 결과를 직접 실행·검증하는 단계도 포함됩니다.^[5]

참고사항

Claude Code 또는 Cursor 2.0을 설치하고 빈 폴더에서 새 프로젝트를 엽니다
"이 폴더에 메모 앱을 만들어줘. 추가·삭제·검색 기능이 있고, 로컬 저장은 브라우저 LocalStorage로"라고 한 번에 자연어로 지시합니다
에이전트가 파일을 생성·수정·실행하는 과정을 화면에서 따라가며 중간에 멈추지 않습니다
작업이 끝난 뒤 직접 앱을 실행해 보고, 안 되는 부분만 모아 "이 세 가지 케이스가 깨졌다"고 한 번에 다시 지시합니다
사람이 직접 짜는 시간 대비 얼마나 줄었는지(분 단위)와, AI가 놓친 결함이 몇 개였는지를 한 줄로 기록합니다

가장 큰 한계는 "AI가 자기 결과를 끝까지 검증한다"는 전제가 항상 성립하지는 않는다는 점입니다. 카카오페이 사례가 보여준 것처럼 사양·테스트가 없는 상태에서 에이전트에게 자율성을 주면 환각·중복 코드·일관성 깨짐이 빠르게 누적됩니다.^[7] Anthropic도 공식 문서에서 Claude Code 기본값을 "파일 변경·명령 실행 전에 사람에게 묻는 보수적 모드"로 설정하고, 자율성 수준을 사용자가 직접 단계별로 올리도록 했습니다.^[1] SWE-bench Verified 77.2% 역시 평균 10회 시도 결과이며, 실제 운영 코드베이스에서는 보안·권한·서드파티 의존성 같은 변수가 늘어나 같은 성능을 기대하기 어렵습니다.^[4]

진화 방향은 두 갈래로 정리됩니다.

"여러 에이전트의 병렬화"입니다. Cursor 2.0은 깃 워크트리·원격 머신으로 다수 에이전트가 서로 간섭 없이 동시에 작업하도록 설계됐고, 사람은 결과만 모아 검토합니다.^[5] GitHub도 2025년 Copilot Coding Agent를 정식 공개하면서, GitHub 이슈를 에이전트에 할당하면 자율적으로 코드를 작성하고 풀 리퀘스트를 만드는 흐름을 표준화했습니다.^[9] 즉 "사람 1명 + 에이전트 N대"가 표준 작업 단위가 되어가고 있는 셈입니다.
"사양 주도 개발(SDD)"입니다. 카카오페이가 정착시킨 이 접근은 GitHub의 Spec Kit 등 오픈소스 도구로 확산 중이며, 사람이 사양·헌법·테스트를 먼저 정의하고 에이전트는 그 위에서만 움직이도록 제약합니다.^[7] 두 흐름의 공통 지향점은 "에이전트의 자율성을 늘리되, 사람의 책임 경계는 코드 라인이 아닌 사양·테스트·검토 단계로 옮긴다"는 점입니다. 보는 시각에 따라 이는 개발자 직무 자체가 "코드 작성자"에서 "사양 설계자 겸 검토자"로 재정의되는 과정으로 읽히기도 합니다.^[7]

이 용어와의 관계

유사 개념
Adaptive Reasoning같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Extended Thinking같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Caching같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.