기본

AI Agent

AI 에이전트

AI 활용 분야에서 쓰이는 Artificial Intelligence(인공지능) Agent의 줄임말로, 사람이 시킨 목표를 달성하기 위해 스스로 계획을 세우고 도구를 호출하며 결과를 검증하는 자율 작업 시스템입니다.

쉬운 풀이

AI Agent는 ChatGPT 같은 챗봇이 "답만 알려주는" 단계에서 한 발 더 나아가, 시킨 일을 직접 끝까지 처리하는 AI예요. 예를 들어 "다음 주 출장 예약해 줘"라고 했을 때 챗봇은 항공권 검색 방법만 안내하지만, AI Agent는 항공권을 직접 비교·예약하고 일정도 캘린더에 넣어 둡니다. 조별 과제에서 자료 조사·정리·발표 자료 작성까지 혼자 해 오는 듬직한 팀원을 떠올리면 비슷해요. 2024~26년 사이 코딩·리서치·고객 응대 영역에서 빠르게 확산 중이라 알아 두면 활용처가 많습니다.

한 줄 비유

지시받은 과업을 견적·발주·검수까지 알아서 마무리하는 외주 실무자입니다.

활용 예시

Case 1

Cognition Devin — 코딩 에이전트의 출발점

Cognition은 2024년 3월 "최초의 AI 소프트웨어 엔지니어" Devin을 공개했습니다.^[03] SWE-bench(실제 GitHub 이슈 해결 벤치마크)에서 13.86%의 종단 완료율을 기록해 직전 SOTA(state-of-the-art, 최고 성능)였던 1.96%를 일곱 배 이상 끌어올렸다고 발표했습니다.^[03] 같은 흐름에서 Anthropic의 Claude Sonnet 4.5는 SWE-bench Verified 77.2%를 보고했고, 후속 모델은 도구 사용 오류를 약 3분의 1 수준으로 줄였습니다.^[04] 사람 엔지니어 견적으로 며칠 단위였던 버그 수정 티켓을 야간 무인 배치로 돌리는 적용처가 분명합니다.

Case 2

LG유플러스 익시오(ixi-O) — 통화 응대 에이전트

LG유플러스는 구글 클라우드 Gemini를 통화 에이전트 ixi-O에 도입해 통화 맥락 분석, 통화 요약, 다음 행동 추천 기능을 단계적으로 확장한다고 2025년 발표했습니다.^[05] 같은 시기 마이크로소프트는 KB라이프·아모레퍼시픽·포스코인터내셔널 등을 산업별 AI 에이전트 도입 사례로 공개했으며, 보험 청구 처리부터 고객 캠페인 자동화까지 적용 범위가 넓어졌습니다.^[06] 자주 들어오는 정형 문의가 많은 컨택센터·내부 헬프데스크에 우선 적용처가 있습니다.

Case 3

OpenAI Deep Research — 리서치 에이전트

OpenAI는 2025년 2월 Deep Research를 정식 공개하면서 멀티스텝 웹 리서치 결과를 보고서 형태로 자동 작성하는 에이전트 모드를 도입했습니다.^[07] 같은 해 1월 공개된 Operator는 OSWorld(컴퓨터 사용 벤치마크)에서 38.1%, WebVoyager(웹 탐색 벤치마크)에서 87%의 성공률을 보고했습니다.^[08] 시장조사·경쟁사 비교·내부 보고서 초안처럼 출처를 모아 표로 정리하는 반복 작업에 적용처가 분명합니다.

Case 4

Figure 02 — 물리(로보틱스) 에이전트

Figure AI는 2025년 BMW 사우스캐롤라이나 스파턴버그 공장에서 Figure 02 로봇을 10개월간 가동해 X3 차량 3만 대 생산에 투입했다고 발표했습니다.^[09] 차체 부품 분류·이송·선반 적재 작업을 연속 8시간 이상 수행한 파일럿 결과입니다.^[09] 후속 Helix 02는 약 1,000만 파라미터 신경망이 기존에 사람이 짜둔 약 10만 9천 줄의 C++ 균형제어 코드를 대체했다고 보고되었습니다.^[09] 단순 반복·중량 운반이 많은 제조 라인이 1차 적용처입니다.

참고사항

Anthropic 「Building Effective Agents」 본문에서 워크플로우 5종(체이닝·라우팅·병렬화·오케스트레이터-워커·평가자-옵티마이저)과 에이전트의 정의 한 줄씩을 메모합니다.
자사 업무 중 "단계 수를 미리 정할 수 없는 과업" 3개를 골라, 그중 어느 것이 에이전트 적용 후보인지 표로 정리합니다.
ChatGPT Deep Research 또는 Claude Research에 동일한 시장조사 질문을 던지고, 응답에 붙은 출처 개수·인용 정확도를 비교합니다.
Devin·Cursor Agent·Claude Code 중 하나로 사내 저장소의 작은 이슈(테스트 추가, 오타 수정)를 종단 처리시켜 보고, 사람 검수 단계가 어디에서 필요했는지 기록합니다.
SWE-bench Verified 리더보드와 OSWorld·WebVoyager 벤치마크 점수를 한 페이지로 정리해 도입 검토 시 협상 자료로 활용합니다.

에이전트는 자율성이 높아질수록 비용·지연·오류 누적이 같이 커집니다. Anthropic은 단순한 한 번의 LLM 호출이나 RAG(검색 증강 생성)로 풀리는 과업에 에이전트를 끼워 넣지 말 것, 도구 사용은 충분한 테스트와 가드레일을 둔 샌드박스 환경에서 검증할 것을 권고합니다.^[01] 한국 시장조사에서는 "고객 서비스 조직의 생성형 AI 자동화 도입은 빠르게 확산되었으나, 통합 오케스트레이션 없이 개별 도구 중심으로 도입돼 자동화 효과가 제한된다"는 운영 성숙도 이슈가 보고됩니다.^[10] 실제 데모와 운영의 격차도 지적되는데, Tesla는 2025년 4분기 실적 발표에서 Optimus 휴머노이드가 자사 공장에서 "유의미한 작업을 수행하고 있지 않다"고 자인했습니다.^[09]

진화 방향은 세 갈래로 정리됩니다.

컴퓨터 사용(Computer Use) 인터페이스의 표준화입니다. OpenAI Operator·ChatGPT Agent와 Anthropic Computer Use는 화면·키보드·마우스를 직접 다루는 범용 인터페이스를 지향합니다.^[07][08]
도구 연결 규약의 통일입니다. Anthropic이 2024년 11월 공개한 Model Context Protocol(MCP, 모델 컨텍스트 프로토콜)이 에이전트-외부 도구 사이의 공통 인터페이스 후보로 자리 잡고 있습니다.^[01]
범용 에이전트 시장의 형성입니다. 중국 Butterfly Effect의 Manus는 2025년 3월 일반 목적 에이전트로 등장했고 권위 매체에서 본격적으로 다뤄졌습니다.^[11] 도메인별로는 코딩·고객응대·리서치·로보틱스가 우선 적용처로 굳어지는 흐름입니다.

이 용어와의 관계

유사 개념
Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.