Agentic Engineering
에이전틱 엔지니어링
AI 활용 분야에서 쓰이는 용어로, AI 에이전트를 단순 코딩에 그치지 않고 시스템 설계·운영·CI/CD·문서화 같은 엔지니어링 전 영역으로 확장해 활용하는 작업 방식입니다.
Agentic Engineering은 "AI 에이전트한테 코드만 시키는 게 아니라 배포·테스트·문서까지 통째로 맡기고, 사람은 여러 에이전트가 잘 굴러가는지 지휘하는 작업 방식"이에요. 조별 과제에서 팀원 다섯 명한테 자료 조사·발표 자료·리허설·제출까지 나눠 맡기고 조장은 진행 점검만 하는 모습과 비슷합니다. 코드 한 줄을 잘 짜는 능력보다, 여러 에이전트에게 일을 어떻게 쪼개서 시키고 결과를 어떻게 검수할지 설계하는 능력이 핵심으로 옮겨가요.
외주 인력 다섯 팀을 동시에 굴리는 PM의 일과 같습니다.
Anthropic — 사내 코드 대부분이 Claude Code 산출물
Anthropic 공식 제품 페이지는 "사내 코드의 대부분이 이제 Claude Code로 작성되며, 엔지니어는 아키텍처와 제품 사고, 여러 에이전트를 병렬로 지휘하는 일에 집중한다"라고 명시합니다.[2] 사람이 직접 키보드를 두드리는 시간보다 에이전트를 검토·승인하는 시간이 더 길어진 사례입니다. 사내 개발 조직의 일하는 방식을 재설계할 때 참고할 만한 1차 자료입니다.
kt cloud FE개발팀 — AI Architecture 4개 층 표준화
kt cloud 기술 블로그가 2026년 4월 공개한 적용기에서는 Claude Code를 "개인의 프롬프트 도구가 아니라 시스템 구성 요소"로 재정의하고, Agent·Skill·Context·Loop 4개 층으로 팀 표준을 잡았습니다.[4] 같은 프롬프트가 사람마다 다른 결과를 내던 비결정성 문제를 Context 저장소로 잡았다는 보고입니다. 사내 코드 컨벤션과 디자인 시스템을 에이전트에 주입하려는 팀이 그대로 참조할 구조입니다.
Stripe — Scala→Java 1만 줄 마이그레이션 4일
Anthropic 공식 자료에 따르면 Stripe는 Claude Code를 사내 엔지니어 1,370명 전원에게 배포했고, 한 팀은 1만 줄 규모 Scala→Java 마이그레이션을 4일 만에 끝냈습니다. 기존 추정치는 10인-주(engineer-weeks)였습니다.[2] Wiz는 같은 방식으로 5만 줄 Python→Go 라이브러리 전환을 약 20시간 만에 완료했다고 보고했습니다.[2] 레거시 코드 현대화 견적을 다시 산정할 시점이라는 신호입니다.
Princeton SWE-bench Verified — 벤치마크 정답률 추이
Princeton-NLP가 운영하는 SWE-bench Verified는 실제 GitHub 이슈 500건을 에이전트가 자동으로 해결하도록 평가합니다.[5] 2024년 3월 Cognition Devin이 13.86%로 종전 1.96%를 큰 폭으로 넘어섰고[6], 2026년 봄 시점에는 Claude Sonnet 4.5가 77.2%대를 기록하며 선두에 올라 있습니다.[5] 도구 선택과 모델 평가의 객관적 근거로 인용할 수 있는 지표입니다.
- Claude Code, Cursor, Codex 중 하나를 골라 작은 사이드 프로젝트로 30분 운영해봅니다
- 프로젝트 루트에 코드 컨벤션과 아키텍처 규칙을 적은 CLAUDE.md 또는 AGENTS.md 한 장을 만듭니다
- 에이전트에게 작업을 맡길 때 "스펙 → 계획 → 구현 → 테스트" 순으로 단계를 끊어 지시합니다
- 변경이 끝나면 diff와 테스트 결과를 직접 검토하고, 보안·식별자·권한 같은 시스템 경계는 사람이 결정합니다
- 자주 반복되는 패턴은 Skill 또는 Slash command로 묶어 팀이 공유할 수 있게 정리합니다
권위 출처가 공통으로 강조하는 한계는 세 가지입니다.
- 모델은 여전히 "들쭉날쭉(jagged)"합니다. Karpathy는 같은 모델이 10만 줄 리팩토링은 해내면서 "50m 거리 세차장에 걸어갈까 차로 갈까"는 틀린다고 적었습니다.[1]
- 시스템 경계 판단은 사람의 몫입니다. Stripe 결제와 Google 로그인의 이메일을 키로 잡으려는 에이전트를 사람이 막아야 했다는 그의 사례가 이 점을 보여줍니다.[1]
- 자율성과 책임의 분리 문제입니다. SE 3.0 논문은 에이전트의 자율성과 사람의 책임 경계를 분리해 설계하지 않으면 운영 환경에서 사고가 누적된다고 지적하며, ACE·AEE 이중 구조를 도입한 이유도 여기에 있다고 정리했습니다.[3] kt cloud 적용기도 "같은 프롬프트가 사람마다 다른 결과를 낸다"는 비결정성을 가장 큰 운영 리스크로 짚었습니다.[4]
진화 방향은 인프라와 협업 구조로 옮겨가고 있습니다. Anthropic은 2026년 5월 Code with Claude 행사에서 "이제 병목은 지능이 아니라 인프라"라며 샌드박스 실행·체크포인트·자격증명 범위 지정 같은 운영 기능을 공개했습니다.[7] MIT Technology Review도 같은 행사 보도에서 "코딩의 미래가 좋든 싫든 이 방향으로 간다"는 진단을 내놓았습니다.[8] arXiv 논문은 한 발 더 나아가 에이전트가 사람을 호출해 모호한 판단을 위임하는 양방향 협업(MRP·CRP 산출물)을 SE 3.0의 표준 활동으로 제시합니다.[3] 도구 시장도 단일 에이전트에서 멀티 에이전트 오케스트레이션으로 무게중심이 이동 중이며, 한 사람이 동시에 5~10개 에이전트를 지휘하는 워크플로가 빠르게 자리잡고 있습니다.[2][4] 현재 시점에서는 "사람이 스펙·검토·경계를 쥐고, 에이전트가 실행과 반복을 맡는다"라는 분업이 업계 표준에 가깝습니다.
- 유사 개념Vibe Coding의도 위임 중심의 직전 단계 패러다임
- 유사 개념Agentic Coding코딩 작업에 한정된 자율 실행 방식
- 다음 단계Multi-Agent Orchestration여러 에이전트가 협업하는 확장 형태
- 기반 기술MCP에이전트가 외부 도구에 연결되는 표준
- 대표 도구Claude Code계획·실행·검증을 자율로 수행하는 CLI
- Sequoia Ascent 2026 summary — 1차 출처 · Andrej Karpathy 블로그 · 2026.04.30
- Claude Code by Anthropic — 공식 제품 문서 · Anthropic · 2026
- Agentic Software Engineering: Foundational Pillars and a Research Roadmap — 학술 논문 · arXiv · 2025.09
- Claude Code를 선택한 이유와 개발 아키텍처 설계 실무 적용기 — 기업 공식 기술 블로그 · kt cloud · 2026.04.10
- SWE-bench Verified — 공식 벤치마크 · Princeton NLP · 2024~2026
- SWE-bench technical report — 회사 공식 발표 · Cognition · 2024.03
- Anthropic's Code with Claude Announces Managed Agents — 권위 매체 · InfoQ · 2026.05
- Anthropic's Code with Claude showed off coding's future — 권위 매체 · MIT Technology Review · 2026.05.21
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.