AI 트렌드

Computer Use

컴퓨터 유즈

AI 활용 분야에서 Anthropic이 2024년 10월에 공개한 기능으로, Claude가 사람처럼 화면을 보고 마우스·키보드를 조작해 데스크탑 앱·웹사이트를 직접 사용하도록 한 도구입니다.

쉬운 풀이

수강신청 페이지에 들어가 자동으로 강의 코드를 입력해 주는 인턴이 옆자리에 앉아 있는 셈이에요. AI한테 "이 사이트에서 이거 해 줘"라고만 말하면, AI가 화면을 직접 보고 마우스를 움직여 클릭하고 키보드로 타이핑까지 처리합니다. 학교 행정 포털처럼 API가 없어 손으로만 해야 하던 작업, 카톡 PC 버전에서 단톡방 공지 정리 같은 단순 반복까지 같은 방식으로 맡길 수 있어요. 사람이 평소에 마우스·키보드로 하던 일을 AI가 그대로 따라 한다고 보면 됩니다.

한 줄 비유

신입에게 사양서 대신 모니터를 보여주고 일을 시키는 방식입니다.

활용 예시

Case 1

Anthropic — Replit Agent 앱 평가 자동화

Replit은 Claude 3.5 Sonnet의 Computer Use를 자사 Replit Agent 제품에 적용해, 개발 중인 앱이 실제로 동작하는지 UI를 직접 클릭하며 점검하는 기능을 만들었습니다 ^[1]. Asana·Canva·Cognition·DoorDash·The Browser Company도 같은 시점에 수십에서 수백 단계가 걸리는 작업을 베타로 검증했습니다 ^[1]. 자체 QA 인력 없이도 빌드 단계마다 동작 확인이 가능해진 사례입니다.

Case 2

OpenAI Operator — 웹 기반 업무 대행

OpenAI Operator는 GPT-4o 비전과 강화학습을 결합한 CUA(Computer-Using Agent) 모델로, 스크린샷만 보고 브라우저에서 폼 작성·예약·구매를 수행합니다 ^[2]. 2025년 1월 ChatGPT Pro 사용자 대상 리서치 프리뷰로 시작했고, 항공권 예약·식료품 주문 같은 반복 업무를 위임하는 용도로 검증 중입니다 ^[4]. 항공권 예약 폼이나 식료품 카트 담기처럼 사람이 5~10분씩 들이던 작업을 한 번의 발주로 끝낼 수 있게 한 사례입니다.

Case 3

Google DeepMind Project Mariner — 병렬 브라우저 에이전트

Project Mariner는 Gemini 2.0 기반으로 별도 브라우저 세션에서 페이지를 읽고 단계를 계획해 클릭·타이핑·스크롤을 수행합니다 ^[3]. 2024년 12월 11일 연구 프로토타입으로 공개됐고, 한 사용자가 최대 10개 작업을 동시에 처리할 수 있도록 설계되었습니다 ^[3]. 출장 일정과 호텔 예약을 동시에 진행하거나, 가격 비교 사이트 여러 곳을 한꺼번에 훑는 식의 병렬 업무에 맞춰 설계된 사례입니다.

Case 4

엔터프라이즈·한국 자동화 — 레거시·정부 포털 처리

API가 없는 사내 레거시 툴, 인허가 포털, 보험 청구 시스템, 컴플라이언스 DB는 다단계 조건부 폼이 많아 RPA로도 처리가 까다로웠습니다 ^[5]. Computer Use는 화면을 직접 인식하기 때문에 API 연동 없이 벤더 포털 로그인·인보이스 다운로드·경쟁사 가격 모니터링 같은 반복 작업을 자동화할 수 있고, 한국에서도 KT·LG 등 대기업이 시범 도입했던 기존 RPA의 빈틈을 메우는 용도로 검토되고 있습니다 ^[5][7]. Claude Sonnet 4.5는 OSWorld 정답률 61.4%까지 끌어올리며 14개월 만에 4배 이상 향상되었습니다 ^[8].

참고사항

Anthropic 공식 문서의 Computer Use 베타 가이드를 읽고 Docker 데모 환경을 띄워봅니다.
OSWorld 벤치마크 페이지에서 최신 모델별 데스크탑 자동화 정답률을 확인합니다.
본인 업무 중 API가 없어 손으로 처리하던 반복 작업 3가지를 적어봅니다.
그중 가장 단순한 폼 입력 작업을 골라 Claude API로 자동화 프로토타입을 만들어봅니다.
실행 로그를 사람이 검토할 수 있는 형태로 남기는 안전장치를 추가합니다.

Anthropic은 출시 시점 발표에서 Computer Use가 "실험 단계이며 때때로 번거롭고 오류가 잦다"고 명시했고, 스크롤·드래그·확대 같은 동작에 어려움을 겪는다고 밝혔습니다 ^[1]. 스팸·허위정보·사기 같은 새로운 위협 벡터로 악용될 수 있다는 점도 같이 공개했고, 이를 막기 위한 별도 분류기를 함께 배포했습니다 ^[1]. OSWorld 정답률은 첫 공개 시점 14.9%로 사람 수준(72.36%)과의 격차가 컸고, 1년이 지난 시점에도 가장 우수한 모델조차 사람 수준에는 미달이라는 평가가 나왔습니다 ^[1][6]. 학술 논문 OSWorld는 369개의 실제 컴퓨터 작업으로 구성돼 있어 화면 인식·계획·도구 호출이 한 번에 잘못되면 단계가 통째로 무너지는 구조이고, Anthropic도 발표 본문에서 "믿을 만한 실행을 위해 사람이 개입해야 하는 단계가 많다"는 점을 인정했습니다 ^[1][6].

진화 방향은 두 갈래입니다.

정확도 향상입니다 — Claude Sonnet 4.5는 OSWorld 정답률을 61.4%까지 끌어올렸고, Sonnet 4.6 이후 도구 사용·자율 작동·컴퓨터 사용 능력이 단계적으로 강화되었습니다 ^[8]. 같은 기간 Anthropic은 Computer Use를 베타에서 정식 도구 API로 승격해 Amazon Bedrock·Google Cloud Vertex AI에서도 동일한 방식으로 호출할 수 있게 했습니다 ^[5].
적용 범위 확장입니다 — Google은 Project Mariner를 단독 프로토타입에서 다른 Gemini 제품군으로 흡수했고, OpenAI는 추론 모델을 결합해 Operator를 강화하는 방향을 발표했습니다 ^[3][2]. 한국에서도 사내 결재·인허가 포털·세무 신고처럼 API가 막혀 있던 영역을 화면 조작 자동화로 풀어 보려는 시범 도입이 늘고 있습니다 ^[7]. 현재 시점에서는 단순 반복·검증 가능한 업무부터 도입하고, 결과를 사람이 한 번 더 확인하는 식으로 운영하는 것이 안전합니다.