Netomi’s lessons for scaling agentic systems into the enterprise
Quick Summary
Netomi는 복잡한 기업 업무를 안정적으로 처리하기 위해 모델 추론, 병렬 실행, 런타임 거버넌스를 결합한 에이전트 시스템 운영 원칙을 제시한다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
Netomi는 복잡한 기업 업무를 안정적으로 처리하기 위해 모델 추론, 병렬 실행, 런타임 거버넌스를 결합한 에이전트 시스템 운영 원칙을 제시한다.
📌 핵심 요약
- Netomi는 United Airlines, DraftKings 같은 Fortune 500 고객을 대상으로, 복잡한 업무 흐름을 처리하는 엔터프라이즈 AI 에이전트 시스템을 구축해 왔다.
- 핵심 교훈은 실제 기업 업무가 단일 API 호출이나 정형화된 흐름으로 끝나지 않으므로, 불완전하고 충돌하는 데이터와 여러 시스템을 전제로 설계해야 한다는 점이다.
- Netomi는 GPT‑4.1을 낮은 지연시간과 안정적인 도구 호출에 활용하고, GPT‑5.2를 더 깊은 다단계 계획과 추론이 필요한 상황에 활용한다.
- 대규모 트래픽과 긴급 상황에서는 순차 처리보다 병렬화가 중요하며, DraftKings 사례에서는 주요 스포츠 이벤트 중 초당 4만 건 이상의 동시 고객 요청에서도 빠른 응답과 높은 의도 분류 정확도를 유지했다고 설명한다.
- 기업용 AI에서는 거버넌스가 외부 보완 장치가 아니라 런타임 자체에 내장되어야 하며, 불확실성이 높을 때 안전하게 후퇴하고 통제된 실행 경로를 따르는 구조가 필요하다고 강조한다.
🧩 주요 포인트
- Netomi는 United Airlines, DraftKings 같은 Fortune 500 고객을 대상으로, 복잡한 업무 흐름을 처리하는 엔터프라이즈 AI 에이전트 시스템을 구축해 왔다.
- 핵심 교훈은 실제 기업 업무가 단일 API 호출이나 정형화된 흐름으로 끝나지 않으므로, 불완전하고 충돌하는 데이터와 여러 시스템을 전제로 설계해야 한다는 점이다.
- Netomi는 GPT‑4.1을 낮은 지연시간과 안정적인 도구 호출에 활용하고, GPT‑5.2를 더 깊은 다단계 계획과 추론이 필요한 상황에 활용한다.
- 대규모 트래픽과 긴급 상황에서는 순차 처리보다 병렬화가 중요하며, DraftKings 사례에서는 주요 스포츠 이벤트 중 초당 4만 건 이상의 동시 고객 요청에서도 빠른 응답과 높은 의도 분류 정확도를 유지했다고 설명한다.
- 기업용 AI에서는 거버넌스가 외부 보완 장치가 아니라 런타임 자체에 내장되어야 하며, 불확실성이 높을 때 안전하게 후퇴하고 통제된 실행 경로를 따르는 구조가 필요하다고 강조한다.
🧠 상세 정리
1. 기업용 에이전트 시스템에 요구되는 기준
원문은 기업이 AI 에이전트에 기대하는 기준을 신뢰성, 정책 준수, 고부하 대응, 작업 근거 제시로 정리한다. Netomi는 United Airlines와 DraftKings 같은 Fortune 500 고객을 지원하며, 실제 운영 환경에서 모델 기반 행동을 예측 가능하게 만드는 실행 계층을 구축했다고 설명한다. 이 플랫폼은 GPT‑4.1과 GPT‑5.2를 각각 다른 역할로 사용한다. GPT‑4.1은 낮은 지연시간과 안정적인 도구 사용에, GPT‑5.2는 더 깊은 다단계 계획에 배치된다. 전체 논지는 모델 성능만이 아니라, 모델이 기업 시스템 안에서 안전하게 행동하도록 만드는 운영 구조가 중요하다는 데 있다.
2. 교훈 1: 이상적인 흐름이 아니라 실제 복잡성을 기준으로 설계
Netomi가 제시하는 첫 번째 교훈은 단순하고 이상화된 업무 흐름을 전제로 삼지 말라는 것이다. 하나의 기업 고객 요청은 예약 엔진, 로열티 데이터베이스, CRM, 정책 로직, 결제 시스템, 지식 소스 등 여러 시스템을 동시에 오갈 수 있다. 또한 데이터는 불완전하거나 서로 충돌하거나 시간에 따라 빠르게 달라질 수 있다. 이런 환경에서는 고정된 순서와 취약한 규칙에 의존하는 시스템이 쉽게 무너진다. Netomi는 이러한 불확실성을 처리하기 위해 OpenAI 모델을 거버넌스가 적용된 오케스트레이션 파이프라인의 중심에 두는 Agentic OS를 설계했다고 설명한다.
3. 항공 산업 사례와 상황 인식의 중요성
원문은 항공 산업을 다단계 추론의 필요성이 특히 잘 드러나는 사례로 제시한다. 항공 고객의 한 가지 질문은 운임 규정 확인, 로열티 혜택 재계산, 항공권 변경, 운항 관련 조율을 동시에 요구할 수 있다. Puneet Mehta는 항공 분야에서는 맥락이 분 단위로 바뀌기 때문에, AI가 고립된 작업을 실행하는 데 그치지 않고 고객이 처한 장면 자체를 이해해야 한다고 말한다. 이 때문에 단순 워크플로보다 상황 인식이 더 중요하며, 맥락 중심의 앙상블 아키텍처가 필요하다고 강조한다. Netomi는 GPT‑4.1과 GPT‑5.2를 활용해 질문 응답을 넘어 작업 계획, 행동 순서화, 백엔드 시스템 조율까지 확장하려 한다.
4. 교훈 2: 기업 수준의 지연시간 기대치를 맞추기 위한 병렬화
두 번째 교훈은 기업 환경에서 지연시간이 신뢰를 좌우한다는 점이다. 폭풍으로 인한 재예약, 청구 문제 해결, 갑작스러운 수요 급증 같은 상황에서 사용자는 시스템이 머뭇거리면 바로 이탈할 수 있다. 원문은 많은 AI 시스템이 분류, 검색, 검증, 도구 호출, 응답 생성의 순차 실행 때문에 실패한다고 지적한다. Netomi는 대신 동시성을 중심으로 설계하고, GPT‑4.1의 낮은 지연시간 스트리밍과 안정적인 도구 호출을 활용한다고 설명한다. GPT‑5.2는 필요한 경우 더 깊은 다단계 추론 경로를 담당하며, 핵심은 모델 하나가 아니라 전체 시스템이 임계 지연시간 안에 머물도록 만드는 것이다.
5. DraftKings 사례: 극단적 트래픽 속 성능 유지
원문은 병렬화 요구가 항공 산업에만 한정되지 않는다고 설명하며 DraftKings 사례를 제시한다. DraftKings는 주요 스포츠 이벤트 동안 고객 요청이 초당 4만 건을 넘는 수준으로 급증할 수 있으며, 이런 상황은 시스템의 동시 처리 능력을 강하게 시험한다. Netomi는 이 같은 이벤트 중에도 3초 미만의 응답과 98%의 의도 분류 정확도를 유지했다고 소개한다. 이 과정에서 워크플로는 계정, 결제, 지식 조회, 규제 확인 등 여러 영역을 건드린다. Paul Liberman은 고객이 가장 중요하게 여기는 순간에 AI가 지원 운영의 중심적 역할을 한다고 말하며, Netomi 플랫폼이 대규모 활동 급증을 민첩하고 정밀하게 처리하도록 돕는다고 평가한다.
6. 교훈 3: 거버넌스를 런타임의 일부로 내장
세 번째 교훈은 기업용 AI의 신뢰성이 설계 단계부터 내장되어야 한다는 것이다. 원문은 거버넌스가 외부에서 덧붙이는 별도 계층이 아니라, 런타임 자체에 직조되어야 한다고 말한다. Netomi는 의도 확신도가 기준치 아래로 떨어지거나 요청을 높은 확실성으로 분류할 수 없을 때, 자유로운 생성 대신 통제된 실행 경로를 선택하도록 거버넌스 메커니즘을 작동시킨다. 치과 보험처럼 규제가 강한 영역에서는 eligibility 확인, benefits 조회, claim status 문의에서 잘못된 응답 하나가 규제나 서비스 리스크로 이어질 수 있다. Mehta는 에이전트가 불확실성에 도달하면 안전하게 후퇴하는 방법을 정확히 알도록 시스템을 만들었다고 설명하며, 거버넌스가 사후 보강이 아니라 런타임의 일부라고 강조한다.
🧾 핵심 주장 / 시사점
- 엔터프라이즈 에이전트의 성패는 모델의 답변 품질만이 아니라, 여러 백엔드 시스템과 정책을 안정적으로 조율하는 실행 구조에 달려 있다.
- 대규모 운영 환경에서는 ‘정확한 추론’과 ‘빠른 응답’이 분리된 목표가 아니며, 병렬화와 안정적인 도구 호출이 신뢰의 핵심 조건이 된다.
- 불확실할 때 더 많이 생성하는 시스템보다, 확신이 낮을 때 안전하게 후퇴하고 통제된 경로를 따르는 시스템이 기업 환경에 더 적합하다.
✅ 액션 아이템
- 기업 업무 흐름을 단일 API 호출이 아니라 불완전·충돌 데이터와 여러 시스템을 포함한 에이전트 실행 경로로 재정의한다.
- 낮은 지연시간·안정적 도구 호출이 필요한 작업과 깊은 다단계 추론이 필요한 작업을 분리해 모델 선택 기준을 세운다.
- 대규모 동시 요청 상황을 가정해 병렬 실행, 의도 분류 정확도, 안전한 후퇴 경로를 함께 점검하는 부하 테스트를 설계한다.
❓ 열린 질문
- 우리 업무 중 단일 정형 흐름으로 처리하기 어려운 다단계·다시스템 작업은 어디에 가장 많이 몰려 있는가?
- 빠른 응답이 중요한 구간과 깊은 계획·추론이 필요한 구간을 나눌 때 어떤 기준으로 GPT‑4.1과 GPT‑5.2를 배치할 수 있는가?
- 불확실성이 높을 때 에이전트가 어떤 조건에서 후퇴하고, 어떤 통제된 실행 경로만 허용해야 하는가?