From model to agent: Equipping the Responses API with a computer environment

🖼️ 인포그래픽

From model to agent: Equipping the Responses API with a computer environment 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI는 Responses API에 셸 도구, 호스팅 컨테이너, 파일·DB·네트워크 제어, 컨텍스트 압축, 재사용 가능한 스킬을 결합해 모델을 실제 작업을 수행하는 에이전트로 확장하는 방식을 설명한다.

📌 핵심 요약

글은 특정 작업에 강한 모델 사용에서 복잡한 워크플로를 처리하는 에이전트 사용으로 이동하고 있다고 설명한다. 단순 프롬프트만으로는 학습된 지능을 호출하는 데 그치지만, 모델에 컴퓨터 환경을 제공하면 파일 처리, API 요청, 서비스 실행, 보고서나 스프레드시트 생성 같은 실제 작업 범위가 넓어진다.
OpenAI는 개발자가 직접 실행 환경과 워크플로 시스템을 만들지 않아도 되도록 Responses API에 셸 도구와 호스팅 컨테이너 워크스페이스를 결합했다. 모델은 다음 행동과 명령을 제안하고, 플랫폼은 이를 격리된 환경에서 실행하며, 결과를 다시 모델의 다음 판단에 반영한다.
셸 도구는 모델이 Unix 기반 명령줄 도구를 활용해 검색, 데이터 처리, API 요청, 서버 실행 등 폭넓은 작업을 수행하게 한다. Responses API는 모델 출력, 도구 실행, 결과 피드백을 반복적으로 오케스트레이션하며, 여러 명령을 병렬 실행하고 큰 출력은 제한해 컨텍스트 낭비를 줄인다.
장기 작업에서 컨텍스트 창이 가득 차는 문제를 해결하기 위해 OpenAI는 네이티브 컴팩션을 도입했다. 최신 모델은 이전 대화 상태를 분석해 핵심 상태를 보존하는 압축 항목을 만들고, 서버 측 자동 압축 또는 별도 엔드포인트를 통해 긴 다단계 작업이 창 경계를 넘어 이어지도록 돕는다.
컨테이너는 단순 실행 공간이 아니라 모델의 작업 문맥이다. 파일 시스템은 입력과 산출물을 정리하는 공간이 되고, SQLite 같은 데이터베이스는 큰 표 전체를 프롬프트에 붙이는 대신 필요한 행만 질의하게 하며, 네트워크 접근은 사이드카 egress 프록시와 도메인 범위 secret 주입으로 통제된다.

🧩 주요 포인트

글은 특정 작업에 강한 모델 사용에서 복잡한 워크플로를 처리하는 에이전트 사용으로 이동하고 있다고 설명한다. 단순 프롬프트만으로는 학습된 지능을 호출하는 데 그치지만, 모델에 컴퓨터 환경을 제공하면 파일 처리, API 요청, 서비스 실행, 보고서나 스프레드시트 생성 같은 실제 작업 범위가 넓어진다.
OpenAI는 개발자가 직접 실행 환경과 워크플로 시스템을 만들지 않아도 되도록 Responses API에 셸 도구와 호스팅 컨테이너 워크스페이스를 결합했다. 모델은 다음 행동과 명령을 제안하고, 플랫폼은 이를 격리된 환경에서 실행하며, 결과를 다시 모델의 다음 판단에 반영한다.
셸 도구는 모델이 Unix 기반 명령줄 도구를 활용해 검색, 데이터 처리, API 요청, 서버 실행 등 폭넓은 작업을 수행하게 한다. Responses API는 모델 출력, 도구 실행, 결과 피드백을 반복적으로 오케스트레이션하며, 여러 명령을 병렬 실행하고 큰 출력은 제한해 컨텍스트 낭비를 줄인다.
장기 작업에서 컨텍스트 창이 가득 차는 문제를 해결하기 위해 OpenAI는 네이티브 컴팩션을 도입했다. 최신 모델은 이전 대화 상태를 분석해 핵심 상태를 보존하는 압축 항목을 만들고, 서버 측 자동 압축 또는 별도 엔드포인트를 통해 긴 다단계 작업이 창 경계를 넘어 이어지도록 돕는다.
컨테이너는 단순 실행 공간이 아니라 모델의 작업 문맥이다. 파일 시스템은 입력과 산출물을 정리하는 공간이 되고, SQLite 같은 데이터베이스는 큰 표 전체를 프롬프트에 붙이는 대신 필요한 행만 질의하게 하며, 네트워크 접근은 사이드카 egress 프록시와 도메인 범위 secret 주입으로 통제된다.

🧠 상세 정리

1. 모델에서 에이전트로의 전환

글은 현재 AI 사용 방식이 특정 작업을 잘 수행하는 모델에서 복잡한 워크플로를 처리할 수 있는 에이전트로 이동하고 있다고 출발한다. 모델에 프롬프트만 주면 학습된 지능을 호출하는 수준에 머물지만, 컴퓨터 환경을 함께 제공하면 사용 범위가 크게 넓어진다. 예를 들어 서비스 실행, API를 통한 데이터 요청, 스프레드시트나 보고서 같은 더 유용한 산출물 생성이 가능해진다. OpenAI는 이런 변화를 단순한 기능 확장이 아니라 실제 세계의 작업을 안정적으로 수행하기 위한 실행 환경의 문제로 다룬다.

2. 에이전트 구축에서 드러나는 실무 문제

에이전트를 만들 때는 모델 자체의 추론 능력만으로 해결되지 않는 실무 문제가 나타난다. 중간 파일을 어디에 둘지, 큰 표를 프롬프트에 그대로 붙이지 않고 어떻게 다룰지, 네트워크 접근을 허용하면서 보안 문제를 어떻게 줄일지, 시간 초과와 재시도를 별도 워크플로 시스템 없이 어떻게 처리할지가 대표적이다. 글은 이런 부담을 개발자에게 모두 맡기는 대신, Responses API에 필요한 실행 구성요소를 붙여 현실 작업을 안정적으로 실행하게 하는 방향을 제시한다. 핵심은 모델의 판단과 플랫폼의 실행을 분리하면서도 하나의 반복 루프로 묶는 것이다.

3. Responses API와 호스팅 컨테이너의 역할

OpenAI의 Responses API는 셸 도구와 호스팅 컨테이너 워크스페이스를 함께 사용해 에이전트 실행 환경을 구성한다. 모델은 다음 단계와 명령을 제안하고, 플랫폼은 이를 격리된 환경에서 실행한다. 이 환경에는 입력과 출력을 위한 파일 시스템, SQLite 같은 선택적 구조화 저장소, 제한된 네트워크 접근이 포함된다. 글은 이 조합이 더 빠르고 반복 가능하며 안전한 프로덕션 워크플로를 만드는 기반이라고 설명한다. 즉 API는 단순히 모델 응답을 반환하는 통로가 아니라, 모델과 도구 실행 사이의 루프를 관리하는 실행 계층으로 확장된다.

4. 셸 도구가 모델의 행동 범위를 넓히는 방식

셸 도구를 이해하려면 먼저 모델의 도구 사용 방식이 실제 실행이 아니라 도구 호출 제안이라는 점을 알아야 한다. 모델은 학습 과정에서 도구가 어떻게 사용되고 어떤 결과를 내는지 단계별 예시를 보며, 언제 어떤 도구를 써야 하는지 배운다. 셸 도구는 모델이 명령줄을 통해 컴퓨터와 상호작용하게 만들어 텍스트 검색, API 요청, 데이터 처리 등 다양한 작업을 수행할 수 있게 한다. 기존 코드 인터프리터가 Python 실행에 한정된 것과 달리, 셸 도구는 Go나 Java 프로그램 실행, NodeJS 서버 시작 같은 더 넓은 사용 사례를 지원한다.

5. 에이전트 루프와 Responses API의 오케스트레이션

모델은 셸 명령을 제안할 수 있을 뿐이므로, 실제 실행에는 오케스트레이터가 필요하다. Responses API는 프롬프트, 이전 대화 상태, 도구 지침을 모아 모델 컨텍스트를 구성하고, 모델이 셸 실행을 선택하면 명령을 컨테이너 런타임으로 전달한다. 그런 다음 셸 출력을 스트리밍으로 받아 다음 요청의 컨텍스트에 넣어 모델이 결과를 확인하고 후속 명령을 내리거나 최종 답변을 만들게 한다. 이 과정은 추가 셸 명령이 없는 완료 응답이 나올 때까지 반복된다. 셸 실행에는 프롬프트가 셸 도구 사용을 언급해야 하고, 선택된 모델이 셸 명령 제안에 맞게 학습되어 있어야 한다는 조건도 제시된다.

6. 병렬 실행과 출력 제한으로 얻는 효율성

Responses API는 셸 명령 실행 중 컨테이너 서비스와 스트리밍 연결을 유지해 출력이 생성되는 즉시 모델에 전달한다. 모델은 이 정보를 바탕으로 더 기다릴지, 다른 명령을 실행할지, 최종 응답으로 넘어갈지 판단할 수 있다. 또한 모델은 한 단계에서 여러 셸 명령을 제안할 수 있고, API는 이를 별도 컨테이너 세션에서 동시에 실행해 검색, 데이터 가져오기, 중간 결과 검증 같은 작업을 병렬화할 수 있다. 파일 처리나 데이터 작업에서는 출력이 지나치게 커질 수 있으므로, 모델이 명령별 출력 상한을 지정하고 API가 시작과 끝 일부를 보존한 제한된 결과를 반환한다. 이를 통해 에이전트 루프는 속도와 컨텍스트 효율성을 함께 확보한다.

7. 긴 작업을 위한 컨텍스트 압축

에이전트 루프의 중요한 문제 중 하나는 작업이 오래 지속되면 컨텍스트 창이 빠르게 차오른다는 점이다. 에이전트가 스킬을 호출하고, 응답을 받고, 도구 호출과 추론 요약을 계속 추가하면 제한된 창은 금세 포화된다. OpenAI는 개발자가 별도의 요약 시스템이나 상태 전달 로직을 직접 만들지 않도록 Responses API에 네이티브 컴팩션을 추가했다고 설명한다. 최신 모델은 이전 대화 상태를 분석해 핵심 정보를 보존하는 압축 항목을 만들고, 이후 컨텍스트는 이 항목과 이전 창의 고가치 부분으로 구성된다. 이 방식은 긴 다단계·도구 기반 세션이 창 경계를 넘어도 일관성을 유지하도록 돕는다.

8. 컴팩션의 운영 방식과 Codex 사례

컴팩션은 서버에 내장된 방식으로 사용할 수도 있고, 별도의 /compact 엔드포인트를 통해 사용할 수도 있다. 서버 측 컴팩션은 임계값을 설정하면 시스템이 적절한 시점을 자동으로 처리하므로 복잡한 클라이언트 로직을 줄인다. 또한 한계에 가까운 요청이 바로 거부되지 않고 처리 후 압축될 수 있도록 약간 더 큰 유효 입력 컨텍스트를 허용한다. 글은 Codex가 이 컴팩션 시스템의 초기 사용자이자 구축을 도운 사례도 소개한다. 한 Codex 인스턴스가 컴팩션 오류를 만나면 다른 인스턴스를 띄워 조사했고, 이 과정에서 Codex는 문제를 해결하는 도구이면서 동시에 자신이 사용할 시스템을 개선하는 사용자 역할을 했다.

9. 컨테이너 문맥: 파일, 데이터베이스, 네트워크

컨테이너는 명령 실행 장소일 뿐 아니라 모델이 작업을 이해하고 이어가는 문맥이다. 첫 번째 요소는 파일 시스템으로, 업로드된 자료와 산출물을 정리하고 모델이 사용할 수 있는 데이터 지도를 제공한다. 글은 모든 입력을 프롬프트에 넣는 방식을 안티패턴으로 보고, 자료를 컨테이너 파일 시스템에 배치한 뒤 모델이 필요한 파일만 열고 파싱하거나 변환하게 하는 편이 낫다고 설명한다. 두 번째 요소는 SQLite 같은 데이터베이스로, 큰 스프레드시트를 통째로 넣는 대신 테이블 구조와 컬럼 의미를 알려주고 필요한 행만 질의하게 한다. 세 번째 요소는 네트워크 접근이며, 외부 API 호출이나 패키지 설치에 필요하지만 위험이 있으므로 정책 제어가 필요하다.

10. 보안 제어와 재사용 가능한 에이전트 스킬

네트워크 접근은 에이전트 업무에 필수적이지만, 무제한 인터넷 접근은 외부 웹사이트로 정보가 노출되거나 민감한 내부·제3자 시스템을 의도치 않게 건드릴 위험을 만든다. OpenAI는 이를 완화하기 위해 호스팅 컨테이너의 모든 outbound 요청을 사이드카 egress 프록시를 통해 보내고, 중앙 정책 계층에서 allowlist와 접근 제어를 적용한다고 설명한다. 자격 증명은 도메인 범위 secret 주입으로 처리되어 모델과 컨테이너에는 placeholder만 보이고 원문 secret 값은 모델이 볼 수 있는 문맥 밖에 유지된다. 마지막으로 글은 반복되는 다단계 작업을 매번 다시 계획하지 않도록 에이전트 스킬을 소개한다. 스킬은 SKILL.md의 메타데이터와 지침, API 명세나 UI 자산 같은 지원 리소스를 포함하는 폴더 번들로, 반복 가능한 절차를 재사용 가능한 구성요소로 묶는다.

🧾 핵심 주장 / 시사점

이 글의 핵심은 모델 성능 향상보다 실행 환경 설계가 에이전트 품질을 좌우한다는 점이다. 파일, DB, 네트워크, 셸, 컨텍스트 압축이 함께 있어야 모델의 판단이 실제 작업 결과로 이어진다.
Responses API의 역할은 단순 호출 API에서 모델-도구-실행환경을 반복적으로 연결하는 오케스트레이션 계층으로 확장된다. 이는 개발자가 별도 harness, 상태 관리, 출력 제한, 장기 실행 처리를 직접 구현해야 하는 부담을 줄인다.
보안 설계는 에이전트 기능을 제한하기 위한 장치가 아니라 실사용을 가능하게 하는 조건으로 제시된다. egress 프록시, allowlist, 도메인 범위 secret 주입은 모델에게 작업 능력을 주면서도 원시 자격 증명과 민감한 네트워크 접근을 통제하려는 구조다.

✅ 액션 아이템

OpenAI와 computer environment가 바꾸는 업무·제품 흐름을 Codex 같은 원문 근거로 분해해 실제 적용 범위를 점검한다.
computer environment와 Codex의 연결 지점을 기준으로 사용자 경험, 운영 비용, 보안·책임 경계를 나눠 검토한다.
후속 발표나 운영 데이터가 나오면 OpenAI의 computer environment 실행 성과를 원문에서 제시한 지표와 다시 비교한다.

❓ 열린 질문

OpenAI의 computer environment 변화가 실제 사용자 워크플로에 자리 잡으려면 Codex 중 어떤 지표가 먼저 개선되어야 할까?
computer environment와 Codex 조합은 다른 조직이나 제품 환경에서도 같은 효과를 낼 수 있을까?
OpenAI가 computer environment의 신뢰성을 증명하려면 어떤 후속 데이터나 운영 사례를 공개해야 할까?