Introducing ChatGPT agent: bridging research and action
Quick Summary
OpenAI는 웹 조작, 심층 분석, 대화형 추론을 결합한 ChatGPT agent를 공개하며 사용자의 지시에 따라 가상 컴퓨터로 복잡한 작업을 처음부터 끝까지 수행할 수 있게 했다고 설명한다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
OpenAI는 웹 조작, 심층 분석, 대화형 추론을 결합한 ChatGPT agent를 공개하며 사용자의 지시에 따라 가상 컴퓨터로 복잡한 작업을 처음부터 끝까지 수행할 수 있게 했다고 설명한다.
📌 핵심 요약
- ChatGPT agent는 Operator의 웹 조작 능력, deep research의 정보 분석·종합 능력, ChatGPT의 대화 능력을 하나의 에이전트형 시스템으로 통합한 기능이다.
- 이 기능은 자체 가상 컴퓨터를 사용해 브라우저, 텍스트 기반 탐색, 파일 다운로드, 터미널 실행, 결과 확인 등을 오가며 복잡한 업무 흐름을 처리한다.
- 사용자는 작업 중 언제든 지시를 수정하거나 브라우저를 넘겨받거나 중단할 수 있으며, 중요한 행동 전에는 ChatGPT가 사용자 확인을 요청한다.
- OpenAI는 업무 자동화, 여행·행사 계획, 스프레드시트 편집, 데이터 분석, 웹 정보 탐색 등 실제 작업에서의 활용 가능성을 강조하며 여러 벤치마크 성능을 제시한다.
- 동시에 웹에서 직접 행동하는 기능이 새 위험을 만들기 때문에 프롬프트 인젝션, 민감정보 접근, 모델 실수, 생물·화학 관련 고위험 역량에 대한 안전장치를 강화했다고 밝힌다.
🧩 주요 포인트
- ChatGPT agent는 Operator의 웹 조작 능력, deep research의 정보 분석·종합 능력, ChatGPT의 대화 능력을 하나의 에이전트형 시스템으로 통합한 기능이다.
- 이 기능은 자체 가상 컴퓨터를 사용해 브라우저, 텍스트 기반 탐색, 파일 다운로드, 터미널 실행, 결과 확인 등을 오가며 복잡한 업무 흐름을 처리한다.
- 사용자는 작업 중 언제든 지시를 수정하거나 브라우저를 넘겨받거나 중단할 수 있으며, 중요한 행동 전에는 ChatGPT가 사용자 확인을 요청한다.
- OpenAI는 업무 자동화, 여행·행사 계획, 스프레드시트 편집, 데이터 분석, 웹 정보 탐색 등 실제 작업에서의 활용 가능성을 강조하며 여러 벤치마크 성능을 제시한다.
- 동시에 웹에서 직접 행동하는 기능이 새 위험을 만들기 때문에 프롬프트 인젝션, 민감정보 접근, 모델 실수, 생물·화학 관련 고위험 역량에 대한 안전장치를 강화했다고 밝힌다.
🧠 상세 정리
1. ChatGPT agent의 핵심 개념
원문은 ChatGPT가 이제 자체 컴퓨터를 사용해 사용자를 대신해 일을 수행할 수 있다고 소개한다. 이 기능의 중심에는 통합된 에이전트형 시스템이 있으며, 기존 Operator, deep research, ChatGPT의 장점을 결합한 것이 특징이다. Operator가 웹사이트에서 스크롤, 클릭, 입력을 할 수 있었고 deep research가 정보를 분석하고 종합하는 데 강했다면, ChatGPT agent는 이 두 흐름을 하나의 작업 수행 경험으로 묶는다. 사용자는 대화 안에서 작업을 지시하고, ChatGPT는 추론과 행동을 오가며 복잡한 흐름을 처음부터 끝까지 처리한다.
2. Operator와 deep research의 자연스러운 진화
OpenAI는 기존의 Operator와 deep research가 서로 다른 강점을 갖고 있었지만 각각의 한계도 분명했다고 설명한다. Operator는 웹에서 직접 클릭하고 입력할 수 있었지만 깊은 분석이나 상세 보고서 작성에는 적합하지 않았고, deep research는 정보 분석과 요약에는 뛰어났지만 웹사이트와 상호작용해 결과를 정제하거나 로그인 기반 콘텐츠에 접근하는 데에는 한계가 있었다. 실제로 Operator로 시도된 많은 질의가 deep research에 더 적합한 경우도 있었다고 한다. ChatGPT agent는 이런 관찰을 바탕으로 두 기능의 장점을 결합해, 웹 상호작용과 정보 분석을 한 모델 안에서 이어지게 만든다.
3. 가상 컴퓨터를 통한 작업 수행 방식
ChatGPT agent는 자체 가상 컴퓨터를 사용해 작업에 필요한 맥락을 유지한다. 원문은 모델이 텍스트 브라우저나 시각 브라우저로 페이지를 열고, 웹에서 파일을 내려받고, 터미널 명령으로 파일을 조작한 뒤, 다시 시각 브라우저에서 결과를 확인할 수 있다고 설명한다. 중요한 점은 여러 도구를 오가더라도 작업 맥락을 잃지 않도록 설계되었다는 점이다. 이를 통해 모델은 특정 작업에 맞게 접근 방식을 조정하며 속도, 정확성, 효율성을 높이려 한다.
4. 사용자 통제와 협업형 작업 흐름
원문은 사용자가 항상 통제권을 가진다는 점을 반복해서 강조한다. ChatGPT agent는 중대한 행동을 하기 전에 사용자 허가를 요청하며, 사용자는 언제든 작업을 중단하거나 브라우저를 넘겨받거나 지시를 수정할 수 있다. 또한 작업이 진행되는 동안 사용자는 원하는 결과 방향을 설명하거나, 아예 작업 목표를 바꿀 수도 있고, ChatGPT는 기존 진행 상황을 유지한 채 새로운 정보를 반영해 이어서 수행한다. 작업이 길어지거나 막힌 것처럼 보이면 사용자는 진행 요약을 요청하거나 부분 결과를 받은 뒤 종료할 수 있으며, 모바일 앱에서는 작업 완료 알림도 받을 수 있다.
5. 일상과 전문 업무에서의 활용 가능성
OpenAI는 ChatGPT agent가 일상적 맥락과 전문 업무 양쪽에서 유용성을 넓힌다고 주장한다. 업무에서는 스크린샷이나 대시보드를 편집 가능한 벡터 요소가 포함된 프레젠테이션으로 바꾸거나, 회의 일정을 재조정하거나, 오프사이트 행사를 계획·예약하거나, 기존 서식을 유지한 채 스프레드시트에 새로운 재무 데이터를 업데이트하는 사례가 제시된다. 개인적인 사용에서는 여행 일정 계획과 예약, 저녁 모임 설계와 예약, 전문가 검색과 진료 예약 같은 작업이 언급된다. 핵심은 단순 답변을 넘어서 실제 웹과 파일, 일정, 문서 작업을 연결해 완결된 결과물에 가까운 작업을 수행하는 데 있다.
6. 벤치마크로 제시된 성능 향상
원문은 ChatGPT agent의 성능을 여러 평가 결과로 뒷받침한다. Humanity’s Last Exam에서는 모델이 pass@1 기준 41.6의 새로운 최고 성능을 기록했고, 최대 8개의 시도를 병렬로 실행한 뒤 자신감이 가장 높은 결과를 고르는 단순한 전략에서는 44.4까지 상승했다고 설명한다. FrontierMath에서는 터미널을 통한 코드 실행 같은 도구 사용으로 27.4% 정확도에 도달해 이전 모델들을 큰 차이로 앞섰다고 제시한다. 또한 복잡하고 경제적 가치가 있는 지식 업무를 평가하는 내부 벤치마크에서는 여러 작업 시간 범위에서 약 절반의 경우 인간과 비슷하거나 더 나은 결과를 냈다고 한다.
7. 데이터 과학, 스프레드시트, 웹 탐색 작업 평가
원문은 실제 업무와 가까운 벤치마크에서도 ChatGPT agent의 강점을 설명한다. DSBench에서는 현실적인 데이터 분석과 모델링 작업에서 인간 성능을 상당한 차이로 넘어섰다고 하고, SpreadsheetBench에서는 실제 시나리오 기반 스프레드시트 편집 능력에서 기존 모델보다 큰 폭으로 우수한 결과를 냈다고 밝힌다. 특히 스프레드시트를 직접 편집할 수 있게 했을 때 ChatGPT agent는 45.5%를 기록했고, 원문은 이를 Copilot in Excel의 20.0%와 비교한다. BrowseComp에서는 찾기 어려운 웹 정보를 탐색하는 능력에서 68.9%로 새로운 최고 성능을 냈으며, WebArena에서도 Operator를 구동하던 o3 기반 CUA보다 개선되었다고 설명한다.
8. 사용 방법과 반복 작업 예약
사용자는 대화 작성창의 도구 드롭다운에서 ‘agent mode’를 선택해 ChatGPT의 새 에이전트 기능을 활성화할 수 있다. 원문은 사용자가 원하는 작업을 자연어로 설명하면 된다고 안내하며, 예시로 심층 조사, 슬라이드쇼 생성, 비용 제출을 든다. 작업 수행 중에는 화면 내 내레이션이 제공되어 ChatGPT가 무엇을 하고 있는지 확인할 수 있고, 사용자는 필요할 때 중단하거나 브라우저 제어권을 직접 가져올 수 있다. 또한 완료된 작업을 반복 실행하도록 예약할 수도 있어, 매주 월요일 아침 주간 지표 보고서를 생성하는 식의 자동화가 가능하다고 설명한다.
9. 새 기능이 가져오는 새로운 위험
원문은 사용자가 ChatGPT에게 웹에서 직접 행동하도록 요청할 수 있게 된 것이 이번 출시의 중요한 변화이자 새로운 위험의 원천이라고 말한다. ChatGPT agent는 커넥터나 사용자가 로그인한 웹사이트를 통해 데이터에 접근할 수 있기 때문에, 민감한 정보 처리와 실제 웹에서의 행동에 대한 위험이 커진다. OpenAI는 Operator 연구 미리보기에서 사용한 통제를 강화하고, 민감정보 처리, 더 넓은 사용자 범위, 제한적 터미널 네트워크 접근과 관련된 안전장치를 추가했다고 설명한다. 다만 이러한 완화책이 위험을 줄이더라도, 도구 범위와 사용자 규모가 확대된 만큼 전체 위험 프로필은 더 높다고 인정한다.
10. 프롬프트 인젝션과 생물·화학 안전장치
OpenAI는 특히 프롬프트 인젝션에 대한 방어를 강조한다. 프롬프트 인젝션은 웹페이지의 숨겨진 요소나 메타데이터 등에 악성 지시를 심어 에이전트의 행동을 조작하려는 공격이며, 에이전트가 직접 행동할 수 있기 때문에 성공 시 개인 데이터 유출이나 로그인된 사이트에서의 해로운 행동으로 이어질 수 있다. 원문은 이를 막기 위해 프롬프트 인젝션을 식별하고 저항하도록 모델을 훈련·테스트했으며, 모니터링과 명시적 사용자 확인 절차도 적용했다고 밝힌다. 또한 모델의 향상된 역량을 고려해 Preparedness Framework상 생물·화학 관련 High capability로 취급하고, 위협 모델링, 이중용도 거부 훈련, 상시 분류기와 추론 모니터, 집행 절차를 포함한 가장 포괄적인 안전 스택을 적용했다고 설명한다.
🧾 핵심 주장 / 시사점
- 이 글의 핵심 변화는 ChatGPT가 답변 생성 도구에서 웹·파일·터미널을 오가며 작업을 수행하는 실행형 시스템으로 확장됐다는 점이다.
- OpenAI는 성능 향상을 벤치마크 수치로 제시하지만, 동시에 사용자의 명시적 확인과 개입 가능성을 강조해 자동화와 통제 사이의 균형을 중요한 설계 원칙으로 내세운다.
- 웹에서 직접 행동하는 에이전트는 프롬프트 인젝션과 민감정보 노출 위험을 키우므로, 실제 활용에서는 필요한 커넥터만 켜고 중요한 행동 전 확인 절차를 유지하는 운용 방식이 중요하다.
✅ 액션 아이템
- 브라우저 조작, 파일 처리, 터미널 실행이 이어지는 반복 업무 중 ChatGPT agent로 끝까지 맡길 수 있는 후보 작업을 3개 선정한다.
- 중요 행동 전 사용자 확인, 작업 중단, 브라우저 인계가 필요한 지점을 기준으로 내부 사용 흐름의 승인 단계를 정리한다.
- 프롬프트 인젝션, 민감정보 접근, 모델 실수 위험이 큰 작업을 분류하고 해당 작업에는 사용 제한이나 검토 절차를 둔다.
❓ 열린 질문
- 가상 컴퓨터 기반 에이전트가 브라우저·파일·터미널을 오갈 때 사용자가 어느 단계까지 직접 통제해야 안전성과 효율이 균형을 이룰까?
- 업무 자동화, 여행·행사 계획, 스프레드시트 편집, 데이터 분석 중 실제 생산성 개선이 가장 먼저 나타날 영역은 어디일까?
- 중요 행동 전 확인 요청과 안전장치가 강화되면 복잡한 작업을 끝까지 수행하는 속도와 사용자 신뢰에 어떤 영향을 줄까?