The next evolution of the Agents SDK

🖼️ 인포그래픽

The next evolution of the Agents SDK 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI는 파일 검사, 명령 실행, 코드 편집, 장기 작업을 통제된 샌드박스에서 수행할 수 있도록 Agents SDK의 하네스와 샌드박스 기능을 확장했다고 발표했다.

📌 핵심 요약

업데이트된 Agents SDK는 개발자가 에이전트에게 제어된 작업공간, 명시적 지시, 필요한 도구를 제공해 파일을 조사하고 근거를 바탕으로 작업하도록 만드는 데 초점을 둔다.
OpenAI는 기존 에이전트 개발 방식이 유연성, 모델 활용도, 실행 위치와 데이터 접근 통제 사이에서 절충을 요구했다고 설명하며, SDK의 하네스를 더 생산 환경에 적합하게 개선했다고 밝혔다.
새 SDK는 구성 가능한 메모리, 샌드박스 인식 오케스트레이션, 파일시스템 도구, MCP 기반 도구 사용, skills, AGENTS.md, 셸 실행, 패치 적용 같은 에이전트 시스템의 공통 원시 기능을 표준화해 제공한다.
네이티브 샌드박스 실행을 통해 에이전트는 파일 읽기와 쓰기, 의존성 설치, 코드 실행, 도구 사용을 안전한 환경에서 수행할 수 있으며, Manifest 추상화로 로컬 개발부터 배포 환경까지 작업공간을 일관되게 구성할 수 있다.
하네스와 컴퓨트를 분리하는 설계는 자격 증명 보호, 내구성 있는 실행, 스냅샷과 복구, 여러 샌드박스 병렬 실행을 가능하게 하며, 새 기능은 API를 통해 일반 제공되고 Python에서 먼저 출시된다.

🧩 주요 포인트

업데이트된 Agents SDK는 개발자가 에이전트에게 제어된 작업공간, 명시적 지시, 필요한 도구를 제공해 파일을 조사하고 근거를 바탕으로 작업하도록 만드는 데 초점을 둔다.
OpenAI는 기존 에이전트 개발 방식이 유연성, 모델 활용도, 실행 위치와 데이터 접근 통제 사이에서 절충을 요구했다고 설명하며, SDK의 하네스를 더 생산 환경에 적합하게 개선했다고 밝혔다.
새 SDK는 구성 가능한 메모리, 샌드박스 인식 오케스트레이션, 파일시스템 도구, MCP 기반 도구 사용, skills, AGENTS.md, 셸 실행, 패치 적용 같은 에이전트 시스템의 공통 원시 기능을 표준화해 제공한다.
네이티브 샌드박스 실행을 통해 에이전트는 파일 읽기와 쓰기, 의존성 설치, 코드 실행, 도구 사용을 안전한 환경에서 수행할 수 있으며, Manifest 추상화로 로컬 개발부터 배포 환경까지 작업공간을 일관되게 구성할 수 있다.
하네스와 컴퓨트를 분리하는 설계는 자격 증명 보호, 내구성 있는 실행, 스냅샷과 복구, 여러 샌드박스 병렬 실행을 가능하게 하며, 새 기능은 API를 통해 일반 제공되고 Python에서 먼저 출시된다.

🧠 상세 정리

1. 개발자가 에이전트에 요구하는 실행 환경의 변화

OpenAI는 유용한 에이전트를 만들기 위해서는 뛰어난 모델만으로는 부족하다고 설명한다. 실제 제품 환경의 에이전트는 파일을 살펴보고, 명령을 실행하고, 코드를 작성하거나 수정하며, 여러 단계를 거쳐 작업을 계속 수행할 수 있어야 한다. 예시로 개발자는 에이전트에게 제어된 작업공간과 명확한 지시를 주고, 특정 디렉터리의 파일만 사용해 답변하게 하거나 파일명을 인용하게 만들 수 있다. 이는 단순 질의응답이 아니라 근거 확인, 문서 비교, 계산 또는 코드 실행이 결합된 장기 작업을 염두에 둔 방향이다.

2. 기존 에이전트 개발 방식의 절충점

본문은 현재의 에이전트 구축 시스템들이 프로토타입에서 생산 환경으로 이동할 때 여러 절충을 요구한다고 지적한다. 모델에 구애받지 않는 프레임워크는 유연하지만 최첨단 모델의 능력을 충분히 활용하지 못할 수 있고, 모델 제공자 SDK는 모델에 더 가깝지만 하네스 내부 동작에 대한 가시성이 부족한 경우가 있다. 관리형 에이전트 API는 배포를 단순화할 수 있지만, 에이전트가 어디에서 실행되고 민감한 데이터에 어떻게 접근하는지에 제약을 줄 수 있다. 업데이트된 Agents SDK는 이러한 문제 사이에서 더 유연하면서도 생산 환경에 가까운 하네스를 제공하려는 시도다.

3. 더 강력해진 에이전트 루프 하네스

이번 릴리스에서 Agents SDK 하네스는 문서, 파일, 시스템을 다루는 에이전트에 맞춰 더 많은 기능을 갖추게 됐다. 구성 가능한 메모리, 샌드박스 인식 오케스트레이션, Codex와 유사한 파일시스템 도구, 그리고 프런티어 에이전트 시스템에서 공통화되고 있는 원시 기능들과의 표준화된 통합이 포함된다. 본문은 MCP를 통한 도구 사용, skills를 통한 점진적 공개, AGENTS.md를 통한 사용자 지정 지시, 셸 도구를 이용한 코드 실행, apply patch 도구를 이용한 파일 편집을 예로 든다. OpenAI는 하네스가 앞으로도 새로운 에이전트 패턴과 원시 기능을 계속 흡수해 개발자가 핵심 인프라보다 도메인 로직에 더 집중하게 만들겠다고 설명한다.

4. 모델 능력과 제품별 유연성을 함께 겨냥한 설계

OpenAI는 하네스가 프런티어 모델의 작동 방식에 실행 환경을 맞춤으로써 모델 능력을 더 잘 끌어낼 수 있다고 주장한다. 에이전트가 모델의 자연스러운 작업 패턴에 더 가깝게 움직이면, 복잡한 작업에서 신뢰성과 성능이 좋아질 수 있다는 설명이다. 특히 오래 실행되거나 다양한 도구와 시스템을 조율해야 하는 작업에서 이러한 정렬이 중요하다고 본다. 동시에 제품마다 요구 사항이 다르기 때문에, Agents SDK는 턴키 형태로 사용할 수 있으면서도 각자의 스택에 맞게 조정 가능한 하네스를 지향한다. 도구 사용, 메모리, 샌드박스 환경을 개발자가 자신들의 제품 구조에 맞춰 구성할 수 있게 하는 것이 핵심이다.

5. 네이티브 샌드박스 실행과 Manifest 추상화

업데이트된 Agents SDK는 샌드박스 실행을 네이티브로 지원해 에이전트가 과제 수행에 필요한 파일, 도구, 의존성을 갖춘 통제된 컴퓨터 환경에서 실행될 수 있게 한다. 본문은 많은 유용한 에이전트가 파일을 읽고 쓰고, 의존성을 설치하고, 코드를 실행하며, 도구를 안전하게 사용할 작업공간을 필요로 한다고 설명한다. 개발자는 자체 샌드박스를 가져오거나 Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel에 대한 내장 지원을 사용할 수 있다. 또한 Manifest 추상화는 로컬 파일 마운트, 출력 디렉터리 정의, 여러 스토리지 제공자의 데이터 연결을 통해 작업공간을 이식 가능하게 묘사한다. 이를 통해 모델은 입력 위치, 출력 위치, 장기 작업의 정리 방식을 예측 가능한 형태로 이해할 수 있다.

6. 보안, 내구성, 확장성과 향후 계획

OpenAI는 에이전트 시스템이 프롬프트 인젝션과 데이터 유출 시도를 전제로 설계되어야 한다고 강조한다. 하네스와 컴퓨트를 분리하면 모델이 생성한 코드가 실행되는 환경에서 자격 증명을 분리해 보관할 수 있고, 샌드박스 컨테이너가 사라져도 실행 전체를 잃지 않는 내구성을 확보할 수 있다. Agents SDK는 스냅샷과 재수화를 통해 기존 환경이 실패하거나 만료되면 새 컨테이너에서 마지막 체크포인트부터 상태를 복구할 수 있다고 설명한다. 확장성 측면에서는 하나 또는 여러 샌드박스를 사용하고, 필요할 때만 샌드박스를 호출하며, 하위 에이전트를 격리된 환경에 라우팅하고, 컨테이너 간 병렬 작업을 수행할 수 있다. 새 기능은 API를 통해 일반 제공되며 표준 API 가격 체계를 따르고, 새로운 하네스와 샌드박스 기능은 Python에서 먼저 출시되고 TypeScript 지원은 향후 계획되어 있다.

🧾 핵심 주장 / 시사점

이 발표의 핵심은 모델 성능 자체보다 에이전트가 실제로 일하는 실행 루프, 작업공간, 파일·도구 접근, 복구 가능성을 제품 수준으로 끌어올리는 데 있다.
하네스와 컴퓨트의 분리는 보안상의 방어선이면서 동시에 장기 실행, 장애 복구, 병렬화 같은 운영 요구를 해결하는 구조적 선택으로 제시된다.
OpenAI는 Agents SDK를 단일 관리형 환경에 가두기보다 여러 샌드박스 제공자와 기존 도구 체계에 연결되도록 설계해, 개발자가 자체 스택 안에서 에이전트를 배치할 수 있게 하려 한다.

✅ 액션 아이템

원문에서 강조한 핵심 변화와 이해관계자를 기준으로 The next evolution of the Agents SDK | OpenAI의 영향을 정리한다.
다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.

❓ 열린 질문

The systems that exist today come with tradeoffs as teams move from prototypes to production. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
For us, the difference was not just extracting the right metadata, but correctly understanding the boundaries of each encounter in long, complex records. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
It now has configurable memory, sandbox aware orchestration, Codex like filesystem tools, and standardized integrations with primitives that are becoming common in frontier agent systems. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
The harness will continue to incorporate new agentic patterns and primitives over time, so developers can spend less time on core infrastructure updates and more time on the domain specific logic that makes their agents useful. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?