How Box AI built enterprise content agents with Deep Agents

🖼️ 인포그래픽

How Box AI built enterprise content agents with Deep Agents 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Box는 Deep Agents 기반의 부모·자식 에이전트 구조와 미들웨어를 활용해 단일 문서 Q&A를 넘어 기업 전체 콘텐츠 검색, 다중 문서 종합, 보고서 생성까지 수행하는 Box Agent를 구축했다.

📌 핵심 요약

Box Agent는 Box AI의 일부로, 기업의 방대한 비정형 콘텐츠 라이브러리에서 정보를 검색하고 수천 개 문서의 내용을 종합하며 보고서와 분석을 생성하도록 설계됐다.
초기 Box AI는 단일 문서 안에서 질문에 답하는 수준이었고, 이후 Knowledge Hubs라는 RAG 기반 계층을 통해 정의된 지식 소스 전체를 질의할 수 있게 발전했다.
Box는 여러 LLM 제공자를 지원해야 했기 때문에 모델에 종속되지 않는 구조가 필요했고, 동시에 10만 개 이상 기업 고객을 대상으로 빠르게 개선할 수 있는 개발 속도도 중요했다.
Deep Agents 기반 아키텍처는 Global Agent가 요청 의도를 분류하고, 단순 작업은 직접 처리하며, 복잡한 작업은 동적으로 자식 에이전트를 생성해 병렬로 분담하게 한다.
미들웨어는 인용 생성, 프롬프트 캐싱, 긴 대화 기록 요약, 부모·자식 에이전트 간 중간 결과 전달을 담당하며 사용자 경험과 비용·지연 시간을 함께 개선한다.

🧩 주요 포인트

Box Agent는 Box AI의 일부로, 기업의 방대한 비정형 콘텐츠 라이브러리에서 정보를 검색하고 수천 개 문서의 내용을 종합하며 보고서와 분석을 생성하도록 설계됐다.
초기 Box AI는 단일 문서 안에서 질문에 답하는 수준이었고, 이후 Knowledge Hubs라는 RAG 기반 계층을 통해 정의된 지식 소스 전체를 질의할 수 있게 발전했다.
Box는 여러 LLM 제공자를 지원해야 했기 때문에 모델에 종속되지 않는 구조가 필요했고, 동시에 10만 개 이상 기업 고객을 대상으로 빠르게 개선할 수 있는 개발 속도도 중요했다.
Deep Agents 기반 아키텍처는 Global Agent가 요청 의도를 분류하고, 단순 작업은 직접 처리하며, 복잡한 작업은 동적으로 자식 에이전트를 생성해 병렬로 분담하게 한다.
미들웨어는 인용 생성, 프롬프트 캐싱, 긴 대화 기록 요약, 부모·자식 에이전트 간 중간 결과 전달을 담당하며 사용자 경험과 비용·지연 시간을 함께 개선한다.

🧠 상세 정리

1. 단일 문서 Q&A에서 기업 전체 콘텐츠 분석으로 확장

Box Agent의 출발점은 사용자가 하나의 문서 안에서 질문하고 답을 얻는 기능이었다. 이후 Box 팀은 Knowledge Hubs를 도입해 특정 지식 소스 전체를 질의할 수 있는 RAG 기반 계층으로 확장했다. 그러나 기업 검색은 중복 정보, 오래된 정보, 비슷해 보이지만 회사마다 다른 명명 체계 때문에 단순 검색보다 훨씬 어렵다. 사용자는 연구 문헌을 종합하거나, 과거 계약을 조건별로 찾아 위험 기준에 맞춰 평가하는 등 더 복잡한 요청을 하기 시작했다. 이 때문에 Box는 표준 Q&A를 넘어서는 에이전트형 구조가 필요하다고 판단했다.

2. Deep Agents를 선택한 이유: 모델 유연성과 개발 속도

Box가 에이전트 플랫폼을 구축하면서 중요하게 본 조건은 두 가지였다. 첫째는 OpenAI, Anthropic, Google 등 여러 LLM 제공자를 고객이 선택할 수 있도록 하는 모델 비종속성이다. 둘째는 10만 개 이상의 기업 고객에게 Box Agent를 출시하고 개선하기 위해, 엔지니어링 시간을 핵심 에이전트 인프라 재구축이 아니라 기업 콘텐츠 문제 해결에 집중하는 것이었다. Deep Agents는 제공자에 구애받지 않는 모델 라우팅을 가능하게 했고, 개방형 에이전트 하네스를 통해 반복 속도를 높였다. Box는 전체 구성요소를 통제하면서도 미래지향적인 프레임워크 위에 구축할 수 있다는 점을 장점으로 보았다.

3. Global Agent와 동적 자식 에이전트 구조

Box Agent의 핵심 구조는 부모·자식 모델이며, 부모와 자식 모두 Deep Agents로 구성된다. 부모 역할을 하는 Global Agent는 사용자의 요청을 받고 의도를 분류한 뒤, 직접 처리할지 자식 에이전트를 생성해 작업을 분산할지 결정한다. 자식 에이전트는 부모 입장에서 도구처럼 표현되므로, 키워드 검색을 실행하든 새 하위 에이전트에 위임하든 호출 방식이 일관된다. 이전에는 검색 에이전트, QA 에이전트, 작성 에이전트처럼 전문화된 하위 에이전트를 하드코딩했지만, 이 방식은 불필요한 지연을 만들었다. 새 구조에서는 간단한 질문이면 부모가 계획을 만들 필요 없이 바로 처리할 수 있다.

4. 복잡한 작업을 병렬로 나누는 실행 방식

복잡한 요청에서는 Global Agent가 먼저 계획을 세운 뒤 여러 자식 에이전트를 동적으로 생성한다. 예를 들어 지난 10년간 특정 금액을 넘는 계약을 찾아 위험 평가 기준에 맞춰 분석하라는 요청이 들어오면, 한 자식은 관련 문서를 검색하고 다른 자식은 평가 기준을 가져오며, 또 다른 자식은 앞선 결과를 종합해 분석한다. 각 자식 에이전트는 독립된 컨텍스트 창에서 실행되고, 미들웨어 계층을 통해 결과를 보고한다. 자식 에이전트가 미리 정해져 있지 않고 런타임에 생성되기 때문에, Box 제품팀이 명시적으로 설계하지 않은 유형의 작업도 처리할 수 있다. 또한 부모와 자식은 BM25 키워드 검색, 벡터 검색, 스프레드시트 Q&A, 파일 작업 등 동일한 도구 레지스트리에 접근한다.

5. 미들웨어가 담당하는 인용, 캐싱, 컨텍스트 관리

Box는 Deep Agents 미들웨어를 활용해 모델 호출과 도구 호출을 가로채고 애플리케이션에 필요한 동작을 삽입한다. 복잡한 다중 문서 답변에서는 인용 생성이 응답 스트리밍과 병렬로 실행되어, 사용자가 답변을 받는 흐름을 끊지 않고 최종 응답에 출처를 붙일 수 있다. 임베딩 기반 매칭은 어떤 문서가 어떤 답변의 근거인지 연결하고, 여러 출처에 인용이 적절히 분산되도록 돕는다. 미들웨어는 다중 턴 대화에서 프롬프트 캐싱을 주입해 대화 기록이 쌓일수록 비용과 지연 시간을 줄인다. 대화 기록이 17만 토큰을 넘으면 자동으로 요약해 컨텍스트 초과를 막으며, 부모와 자식 에이전트 사이에서 중간 산출물을 주고받는 통신 채널로도 작동한다.

6. 개발 속도 향상과 조직 지식 에이전트로의 로드맵

Deep Agents 기반 전환은 Box의 개발 속도에도 직접적인 영향을 줬다. 과거 Box AI를 처음부터 직접 구축했을 때는 시장에 기능을 내놓기까지 더 많은 시간이 필요했다. 현재 스택에서는 새 에이전트를 몇 주 안에 출시할 수 있고, 하드코딩된 전문 하위 에이전트 구조를 개발해 출시하는 데 약 3개월이 걸렸던 것과 비교해 재귀적 부모·자식 구조는 4배 빠르게 출시됐다. Box가 현재 제공하는 기업 전체 검색, 다중 문서 종합, 구조화된 보고서 생성은 더 장기적인 목표의 기반이다. Box는 앞으로 에이전트가 10년차 직원처럼 조직의 맥락을 이해하도록 더 풍부한 메모리와 지식 조합, 백그라운드 정보 수집, 내부 팀과 외부 시스템과의 더 깊은 소통 능력을 확장하려 한다.

🧾 핵심 주장 / 시사점

Box 사례의 핵심은 에이전트를 단순 챗봇이 아니라 기업 콘텐츠 보안·권한 모델 위에서 작동하는 분석 실행 계층으로 설계했다는 점이다.
정적 라우팅보다 모델이 상황에 맞게 도구와 하위 에이전트를 선택하도록 한 결정은, 사용 사례가 늘어날수록 유연성이 더 중요해진다는 점을 보여준다.
미들웨어는 부가 기능이 아니라 인용, 캐싱, 컨텍스트 요약, 에이전트 간 통신을 묶어 기업용 에이전트의 신뢰성과 사용성을 좌우하는 핵심 계층으로 작동한다.

✅ 액션 아이템

원문에서 강조한 핵심 변화와 이해관계자를 기준으로 How Box AI built enterprise content agents with Deep Agents의 영향을 정리한다.
다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.

❓ 열린 질문

Enterprise Reinforcement Learning Research for Agents]]" "259. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
How Lyft Built a Self Serve AI Agent Platform with LangGraph and LangSmith" "239. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
Cloudflare’s AI Platform an inference layer designed for agents" "217. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
Google DeepMind is worried about what happens when millions of agents start to interact MIT Technology Review" "[[201. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?