Introducing AgentKit

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI는 에이전트를 더 빠르게 설계·배포·평가·최적화할 수 있도록 Agent Builder, Connector Registry, ChatKit, 강화된 Evals, RFT 기능을 포함한 AgentKit을 공개했다.

📌 핵심 요약

AgentKit은 개발자와 기업이 에이전트를 만들고 운영하는 과정에서 겪던 복잡한 오케스트레이션, 커넥터 관리, 수동 평가 파이프라인, 프런트엔드 구현 부담을 줄이기 위한 도구 묶음이다.
Agent Builder는 드래그 앤드 드롭 방식의 시각적 캔버스에서 멀티 에이전트 워크플로를 구성하고, 도구 연결, 가드레일 설정, 미리보기 실행, 평가 설정, 버전 관리를 지원한다.
Connector Registry는 ChatGPT와 API 전반에서 Dropbox, Google Drive, SharePoint, Microsoft Teams, 서드파티 MCP 같은 데이터 연결을 중앙 관리할 수 있게 하는 기업용 관리 기능이다.
ChatKit은 스트리밍 응답, 스레드 관리, 모델 사고 과정 표시, 브랜드 맞춤형 채팅 경험 같은 구현 부담을 줄여 제품 안에 에이전트형 채팅 UI를 쉽게 삽입하도록 돕는다.
OpenAI는 Evals에 데이터셋, 트레이스 채점, 자동 프롬프트 최적화, 서드파티 모델 지원을 추가하고, RFT 베타에는 커스텀 도구 호출과 커스텀 채점기를 도입해 에이전트 성능 개선 흐름을 강화했다.

🧩 주요 포인트

AgentKit은 개발자와 기업이 에이전트를 만들고 운영하는 과정에서 겪던 복잡한 오케스트레이션, 커넥터 관리, 수동 평가 파이프라인, 프런트엔드 구현 부담을 줄이기 위한 도구 묶음이다.
Agent Builder는 드래그 앤드 드롭 방식의 시각적 캔버스에서 멀티 에이전트 워크플로를 구성하고, 도구 연결, 가드레일 설정, 미리보기 실행, 평가 설정, 버전 관리를 지원한다.
Connector Registry는 ChatGPT와 API 전반에서 Dropbox, Google Drive, SharePoint, Microsoft Teams, 서드파티 MCP 같은 데이터 연결을 중앙 관리할 수 있게 하는 기업용 관리 기능이다.
ChatKit은 스트리밍 응답, 스레드 관리, 모델 사고 과정 표시, 브랜드 맞춤형 채팅 경험 같은 구현 부담을 줄여 제품 안에 에이전트형 채팅 UI를 쉽게 삽입하도록 돕는다.
OpenAI는 Evals에 데이터셋, 트레이스 채점, 자동 프롬프트 최적화, 서드파티 모델 지원을 추가하고, RFT 베타에는 커스텀 도구 호출과 커스텀 채점기를 도입해 에이전트 성능 개선 흐름을 강화했다.

🧠 상세 정리

1. AgentKit 출시 배경과 문제의식

OpenAI는 2025년 10월 6일 AgentKit을 공개하며, 이를 개발자와 기업이 에이전트를 구축·배포·최적화하기 위한 완결형 도구 세트로 설명한다. 원문은 기존 에이전트 개발이 여러 파편화된 도구를 조합해야 하는 작업이었다고 지적한다. 복잡한 오케스트레이션에는 버전 관리가 부족했고, 커스텀 커넥터와 수동 평가 파이프라인, 프롬프트 튜닝, 출시 전 프런트엔드 작업까지 필요했다. AgentKit은 이런 병목을 줄이고, 에이전트 워크플로 설계와 제품 내 채팅 경험 삽입을 더 빠르게 하기 위한 구성 요소들을 제공한다.

2. 핵심 구성 요소: Agent Builder, Connector Registry, ChatKit

AgentKit의 주요 구성 요소는 Agent Builder, Connector Registry, ChatKit이다. Agent Builder는 멀티 에이전트 워크플로를 만들고 버전 관리할 수 있는 시각적 캔버스이며, 개발자가 로직을 노드 단위로 구성하고 도구를 연결하며 사용자 지정 가드레일을 설정할 수 있게 한다. Connector Registry는 기업 관리자가 OpenAI 제품 전반에서 데이터와 도구 연결 방식을 관리하는 중앙 공간으로 제시된다. ChatKit은 제품 안에 맞춤형 에이전트 채팅 경험을 삽입하기 위한 도구로, 에이전트 UI 구현의 복잡성을 낮추는 데 초점이 있다.

3. Agent Builder와 기업 사례

Agent Builder는 에이전트 워크플로가 복잡해질수록 개발자에게 필요한 가시성을 제공하는 도구로 소개된다. 원문은 이 도구가 드래그 앤드 드롭 노드, 도구 연결, 사용자 지정 가드레일, 미리보기 실행, 인라인 평가 설정, 전체 버전 관리를 지원한다고 설명한다. Ramp는 Agent Builder를 통해 과거에는 몇 달이 걸리던 복잡한 오케스트레이션과 수동 최적화 과정을 몇 시간 수준으로 줄였다고 밝혔다. LY Corporation도 엔지니어와 도메인 전문가가 하나의 인터페이스에서 협업해 두 시간 이내에 첫 멀티 에이전트 워크플로를 만들고 실행했다고 소개된다.

4. 데이터 연결 관리와 안전장치

OpenAI는 기업 환경에서 여러 워크스페이스와 조직에 걸친 데이터 연결을 통제하고 유지하기 위해 Connector Registry를 함께 출시한다고 설명한다. 이 레지스트리는 ChatGPT와 API 전반의 데이터 소스를 단일 관리자 패널로 통합하며, Dropbox, Google Drive, SharePoint, Microsoft Teams 같은 사전 구축 커넥터와 서드파티 MCP를 포함한다. 또한 Agent Builder에서는 오픈소스 모듈형 안전 계층인 Guardrails를 활성화할 수 있다. Guardrails는 개인정보를 마스킹하거나 표시하고, jailbreak를 감지하며, 의도치 않거나 악의적인 동작으로부터 에이전트를 보호하는 데 쓰인다.

5. ChatKit과 제품 내 에이전트 경험

원문은 에이전트용 채팅 UI를 배포하는 일이 보기보다 복잡하다고 설명한다. 스트리밍 응답 처리, 스레드 관리, 모델의 사고 과정 표시, 대화 안에서의 사용자 경험 설계 같은 요소가 모두 필요하기 때문이다. ChatKit은 이런 부담을 줄여 앱이나 웹사이트에 네이티브처럼 느껴지는 채팅 기반 에이전트를 삽입하도록 돕는다. 또한 테마나 브랜드에 맞춰 커스터마이징할 수 있다. Canva는 개발자 커뮤니티용 지원 에이전트를 ChatKit으로 구축하면서 2주 이상의 시간을 절약했고, 1시간 이내에 통합했다고 밝혔다.

6. 평가 기능, RFT 확장, 출시 범위

OpenAI는 프로덕션 수준의 신뢰할 수 있는 에이전트를 만들려면 엄격한 성능 평가가 필요하다고 강조한다. 이를 위해 Evals에 데이터셋, 트레이스 채점, 자동 프롬프트 최적화, 서드파티 모델 지원을 추가했다. Carlyle은 평가 플랫폼을 통해 멀티 에이전트 실사 프레임워크의 개발 시간을 50% 이상 줄이고 에이전트 정확도를 30% 높였다고 언급된다. 또한 RFT는 o4-mini에서 일반 제공되고 GPT-5에서는 비공개 베타로 운영되며, 베타에는 커스텀 도구 호출과 커스텀 채점기 기능이 추가된다. 출시 시점 기준 ChatKit과 새로운 Evals 기능은 모든 개발자에게 일반 제공되고, Agent Builder는 베타, Connector Registry는 일부 API·ChatGPT Enterprise·Edu 고객 대상으로 베타 롤아웃된다.

🧾 핵심 주장 / 시사점

AgentKit의 핵심은 단일 모델 성능보다 에이전트 개발의 전체 수명주기, 즉 설계·연결·UI·평가·최적화를 하나의 흐름으로 묶는 데 있다.
원문에 제시된 고객 사례들은 AgentKit이 특히 조직 내 협업, 반복 속도, 평가 기반 개선을 단축하는 방향으로 포지셔닝되고 있음을 보여준다.
2026년 6월 3일 업데이트에 따르면 Agent Builder와 Evals 제품은 2026년 11월 30일 이후 OpenAI 플랫폼에서 제공되지 않을 예정이므로, 지속 가능한 워크플로에는 Agents SDK나 ChatGPT의 Workspace Agents가 권장된다.

✅ 액션 아이템

Agent Builder와 Evals에 의존한 내부 워크플로가 있다면 Agents SDK 또는 Workspace Agents로 이전 가능한 흐름을 분류한다.
에이전트 개발 병목이 오케스트레이션, 커넥터, 평가, 프런트엔드 중 어디에 있는지 나눠 AgentKit 구성요소와 대응시킨다.
에이전트 배포 전 PII, jailbreak, 악의적 행동 방어 항목을 Guardrails 기준으로 점검 목록화한다.

❓ 열린 질문

Agent Builder와 Evals 종료 이후에도 코드로 유지해야 하는 워크플로와 자연어 프롬프트가 더 적합한 사용 사례는 어떻게 구분할 것인가?
Connector Registry가 여러 워크스페이스와 조직의 데이터 연결을 관리할 때, 어떤 데이터와 도구 연결을 우선 통제해야 하는가?
에이전트 성능 개선을 위해 데이터셋, 트레이스 채점, 자동 프롬프트 최적화, 서드파티 모델 지원 중 무엇을 먼저 측정할 것인가?