Computer-Using Agent

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI의 Computer-Using Agent(CUA)는 화면 픽셀을 이해하고 마우스·키보드로 조작하며, Operator가 웹과 컴퓨터 작업을 수행하도록 뒷받침하는 범용 GUI 기반 에이전트 모델이다.

📌 핵심 요약

OpenAI는 2025년 1월 23일 Operator의 연구 미리보기를 소개하며, 이를 구동하는 핵심 모델로 Computer-Using Agent(CUA)를 공개했다.
CUA는 GPT-4o의 시각 능력과 강화학습 기반 고급 추론을 결합해, 사람이 화면에서 보는 버튼·메뉴·입력창 같은 그래픽 사용자 인터페이스를 직접 다룰 수 있도록 훈련됐다.
이 모델은 특정 운영체제나 웹서비스 API에 의존하지 않고, 원시 화면 픽셀을 인식한 뒤 가상 마우스와 키보드로 클릭·스크롤·입력 같은 행동을 수행한다.
평가에서 CUA는 OSWorld 38.1%, WebArena 58.1%, WebVoyager 87%의 성공률을 기록하며 컴퓨터 사용 및 브라우저 사용 벤치마크에서 새로운 수준의 성능을 보였다.
OpenAI는 디지털 세계에 접근하는 에이전트의 위험을 고려해 안전을 우선순위로 두고 있으며, 미국 Pro 사용자 대상 Operator 연구 미리보기를 통해 실제 피드백을 받아 개선하겠다고 밝혔다.

🧩 주요 포인트

OpenAI는 2025년 1월 23일 Operator의 연구 미리보기를 소개하며, 이를 구동하는 핵심 모델로 Computer-Using Agent(CUA)를 공개했다.
CUA는 GPT-4o의 시각 능력과 강화학습 기반 고급 추론을 결합해, 사람이 화면에서 보는 버튼·메뉴·입력창 같은 그래픽 사용자 인터페이스를 직접 다룰 수 있도록 훈련됐다.
이 모델은 특정 운영체제나 웹서비스 API에 의존하지 않고, 원시 화면 픽셀을 인식한 뒤 가상 마우스와 키보드로 클릭·스크롤·입력 같은 행동을 수행한다.
평가에서 CUA는 OSWorld 38.1%, WebArena 58.1%, WebVoyager 87%의 성공률을 기록하며 컴퓨터 사용 및 브라우저 사용 벤치마크에서 새로운 수준의 성능을 보였다.
OpenAI는 디지털 세계에 접근하는 에이전트의 위험을 고려해 안전을 우선순위로 두고 있으며, 미국 Pro 사용자 대상 Operator 연구 미리보기를 통해 실제 피드백을 받아 개선하겠다고 밝혔다.

🧠 상세 정리

1. Operator와 CUA 공개의 맥락

OpenAI는 Operator라는 연구 미리보기 형태의 에이전트를 소개하며, 이 에이전트가 사용자를 대신해 웹으로 이동해 작업을 수행할 수 있다고 설명한다. Operator를 구동하는 기반은 Computer-Using Agent, 즉 CUA다. 원문은 CUA를 디지털 세계와 상호작용하기 위한 범용 인터페이스로 제시하며, 특정 서비스의 API를 호출하는 방식이 아니라 사람이 화면을 보고 조작하는 방식에 가깝게 설계됐다는 점을 강조한다. 이는 AI가 웹페이지나 운영체제 환경을 별도 통합 없이 다룰 수 있는 방향을 보여주는 발표다.

2. GUI를 사람처럼 다루는 모델

CUA는 GPT-4o의 시각 능력과 강화학습을 통한 고급 추론을 결합한 모델로 설명된다. 핵심은 버튼, 메뉴, 텍스트 필드처럼 사람이 화면에서 직접 보고 사용하는 그래픽 사용자 인터페이스를 이해하고 조작하도록 훈련됐다는 점이다. 이 접근은 운영체제별 API나 웹서비스별 API가 없어도 디지털 작업을 수행할 수 있게 한다. 원문은 이 유연성이 CUA의 중요한 특징이라고 말하며, 같은 화면·마우스·키보드라는 일반 행동 공간을 통해 다양한 환경에 대응할 수 있다고 설명한다.

3. 멀티모달 이해와 추론 연구의 연장선

OpenAI는 CUA가 멀티모달 이해와 추론이 만나는 지점에서 축적된 기초 연구를 바탕으로 만들어졌다고 설명한다. 단순히 화면을 인식하는 데 그치지 않고, GUI 지각 능력과 구조화된 문제 해결 능력을 결합해 복수 단계의 계획을 세울 수 있다는 점이 강조된다. 작업 중 장애물이 생기면 스스로 상황을 다시 평가하고 수정할 수도 있다. 원문은 이러한 능력이 AI 발전의 다음 단계로 이어지며, 모델이 사람이 매일 쓰는 도구를 사용할 수 있게 한다고 본다.

4. 화면 픽셀, 추론, 행동의 반복 루프

CUA의 작동 방식은 지각, 추론, 행동이 반복되는 루프로 정리된다. 먼저 컴퓨터 화면의 스크린샷이 모델의 컨텍스트에 추가되어 현재 상태를 시각적으로 파악하게 한다. 이후 모델은 현재와 과거의 화면, 이전 행동을 고려해 다음 단계를 추론하며, 원문은 이 내부 독백이 관찰 평가, 중간 단계 추적, 동적 적응에 도움을 준다고 설명한다. 마지막으로 CUA는 클릭, 스크롤, 타이핑 같은 동작을 수행하고, 작업 완료 또는 사용자 입력 필요 여부를 판단한다.

5. 자동 수행과 사용자 확인의 경계

CUA는 대부분의 단계를 자동으로 처리할 수 있지만, 원문은 민감한 행동에 대해서는 사용자 확인을 요구한다고 밝힌다. 예를 들어 로그인 정보 입력이나 CAPTCHA 응답처럼 보안 또는 사용자 의사 확인이 필요한 상황에서는 자동으로 밀어붙이지 않는다. 이는 디지털 환경에 접근하는 에이전트가 가질 수 있는 위험을 줄이기 위한 설계로 읽힌다. OpenAI는 Operator System Card에서 관련 안전 문제를 다루고 있으며, CUA 개발에서 안전을 최우선 과제로 삼았다고 설명한다.

6. 웹 브라우징 벤치마크 성능

CUA는 웹 기반 작업 평가에서 WebArena 58.1%, WebVoyager 87%의 성공률을 기록했다. WebArena는 전자상거래, 온라인 스토어 CMS, 소셜 포럼 등 실제 환경을 모사한 자체 호스팅 오픈소스 웹사이트에서 브라우징 에이전트의 수행 능력을 평가한다. WebVoyager는 Amazon, GitHub, Google Maps 같은 실제 온라인 웹사이트에서 모델 성능을 시험한다. 원문은 CUA가 브라우저 화면을 픽셀로 보고 마우스와 키보드로 행동하는 동일한 범용 인터페이스만으로 이러한 결과를 냈다고 설명한다.

7. 높은 점수와 남은 한계

원문은 CUA가 WebVoyager에서 높은 성공률을 기록했지만, 그 벤치마크의 많은 작업이 상대적으로 단순하다는 점도 함께 언급한다. 더 복잡한 WebArena에서는 인간 성능과의 격차를 줄이기 위해 추가 개선이 필요하다고 설명한다. 컴퓨터 사용 전반을 평가하는 OSWorld에서도 CUA는 38.1%의 성공률을 보였고, 인간 성능 72.4%와는 상당한 차이가 남아 있다. 즉 발표는 성능 향상을 강조하면서도, 현재 CUA가 초기 단계이며 제한이 있다는 점을 분명히 한다.

8. OSWorld와 전체 컴퓨터 사용 능력

OSWorld는 Ubuntu, Windows, macOS 같은 전체 운영체제를 제어하는 모델 능력을 평가하는 벤치마크로 소개된다. CUA는 이 평가에서 38.1%의 성공률을 달성했으며, 이전 최고 성능보다 높은 결과로 제시된다. 원문은 또한 허용되는 단계 수가 늘어날수록 CUA의 성능이 개선되는 테스트 시점 스케일링 현상을 관찰했다고 밝힌다. 이는 모델이 더 많은 행동 기회를 받으면 복잡한 운영체제 작업을 더 잘 해결할 수 있음을 시사하지만, 동시에 아직 인간 수준에는 크게 못 미친다는 한계도 보여준다.

9. 구체적 작업 예시와 디지털 환경 적응

원문에는 Cambridge Dictionary Plus 영역으로 이동해 로그인 없이 추천 문법 퀴즈를 완료하고 최종 점수를 알려주는 예시 흐름이 포함되어 있다. 이 과정에서 CUA는 광고 팝업을 닫고, 메뉴를 탐색하고, 퀴즈 항목을 찾고, 여러 답안을 입력하며, 결과를 확인하는 다단계 행동을 수행한다. 또 OSWorld 예시에서는 강의 PDF를 찾아 다운로드하고 지정 폴더에 저장하는 식의 운영체제 작업 흐름도 제시된다. 이러한 예시는 CUA가 단일 명령을 즉시 실행하는 도구가 아니라, 화면 변화에 따라 계속 관찰하고 조정하는 에이전트임을 보여준다.

10. 연구 미리보기와 반복적 배포 전략

OpenAI는 CUA를 Operator 연구 미리보기를 통해 먼저 배포한다고 설명한다. 초기 제공 대상은 미국의 Pro 등급 사용자이며, 서비스 주소로 operator.chatgpt.com이 제시되어 있다. 원문은 실제 사용자 피드백을 모아 안전 조치를 다듬고 기능을 지속적으로 개선하겠다는 반복적 배포 전략을 강조한다. 이는 디지털 에이전트 사용이 늘어날 미래를 준비하면서, 모델의 능력 확장뿐 아니라 안전성과 실제 사용 경험을 함께 검증하려는 접근으로 정리할 수 있다.

🧾 핵심 주장 / 시사점

CUA의 핵심 전환점은 특정 API 통합이 아니라 사람이 쓰는 화면·마우스·키보드 인터페이스 자체를 AI의 행동 공간으로 삼았다는 데 있다.
벤치마크 결과는 웹 작업에서 강한 가능성을 보이지만, 복잡한 웹 환경과 전체 운영체제 제어에서는 인간 수준과의 격차가 아직 크다는 점을 함께 드러낸다.
OpenAI가 연구 미리보기와 사용자 확인 절차를 강조한 것은, 컴퓨터를 직접 조작하는 에이전트가 성능 문제뿐 아니라 안전·권한·신뢰 문제를 동시에 다뤄야 함을 보여준다.

✅ 액션 아이템

CUA처럼 화면 픽셀 기반으로 GUI를 조작하는 에이전트가 기존 API 의존 자동화와 어떻게 다른지 비교 기준을 정리한다.
OSWorld 38.1%, WebArena 58.1%, WebVoyager 87% 성공률을 기준으로 컴퓨터 사용·브라우저 작업별 적용 가능 영역을 나눠본다.
Operator 연구 미리보기처럼 실제 사용자 피드백을 받아 개선하는 방식이 에이전트 안전성 평가에 어떤 운영 절차를 요구하는지 검토한다.