Towards a science of scaling agent systems: When and why agent systems work
Quick Summary
Google Research는 180개 에이전트 구성의 통제 평가를 통해 다중 에이전트가 병렬화 가능한 과제에서는 성능을 크게 높이지만, 순차적 추론 과제에서는 오히려 성능을 떨어뜨릴 수 있다는 정량적 스케일링 원칙을 제시했다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
Google Research는 180개 에이전트 구성의 통제 평가를 통해 다중 에이전트가 병렬화 가능한 과제에서는 성능을 크게 높이지만, 순차적 추론 과제에서는 오히려 성능을 떨어뜨릴 수 있다는 정량적 스케일링 원칙을 제시했다.
📌 핵심 요약
- 이 글은 AI 에이전트 시스템이 단순 질의응답을 넘어 추론·계획·행동을 수행하는 장기적 상호작용 시스템으로 확산되면서, 기존 정확도 중심 평가만으로는 설계 원칙을 세우기 어렵다는 문제의식에서 출발한다.
- 연구진은 ‘에이전트 수가 많을수록 좋다’는 현장의 휴리스틱을 검증하기 위해 단일 에이전트와 여러 다중 에이전트 구조를 포함한 180개 구성을 통제 평가했고, 과제 특성에 따라 성능 향상과 저하가 갈린다는 결과를 얻었다.
- 병렬화 가능한 금융 추론 과제에서는 복잡한 문제를 하위 과제로 나누어 여러 에이전트가 동시에 처리할 수 있었고, 중앙집중형 조정 구조가 단일 에이전트 대비 80.9% 성능 향상을 보였다.
- 반대로 PlanCraft처럼 엄격한 순차 추론이 필요한 과제에서는 모든 다중 에이전트 변형이 39~70% 성능 저하를 보였으며, 연구진은 이를 의사소통 오버헤드가 추론 과정을 분절시키고 실제 과제에 쓸 인지 예산을 줄였기 때문이라고 설명한다.
- 연구진은 도구 수, 분해 가능성 같은 측정 가능한 과제 속성으로 최적 아키텍처를 예측하는 모델을 만들었고, 이 모델이 보지 못한 과제 구성의 87%에서 최적 조정 전략을 맞혔다고 밝혔다.
🧩 주요 포인트
- 이 글은 AI 에이전트 시스템이 단순 질의응답을 넘어 추론·계획·행동을 수행하는 장기적 상호작용 시스템으로 확산되면서, 기존 정확도 중심 평가만으로는 설계 원칙을 세우기 어렵다는 문제의식에서 출발한다.
- 연구진은 ‘에이전트 수가 많을수록 좋다’는 현장의 휴리스틱을 검증하기 위해 단일 에이전트와 여러 다중 에이전트 구조를 포함한 180개 구성을 통제 평가했고, 과제 특성에 따라 성능 향상과 저하가 갈린다는 결과를 얻었다.
- 병렬화 가능한 금융 추론 과제에서는 복잡한 문제를 하위 과제로 나누어 여러 에이전트가 동시에 처리할 수 있었고, 중앙집중형 조정 구조가 단일 에이전트 대비 80.9% 성능 향상을 보였다.
- 반대로 PlanCraft처럼 엄격한 순차 추론이 필요한 과제에서는 모든 다중 에이전트 변형이 39~70% 성능 저하를 보였으며, 연구진은 이를 의사소통 오버헤드가 추론 과정을 분절시키고 실제 과제에 쓸 인지 예산을 줄였기 때문이라고 설명한다.
- 연구진은 도구 수, 분해 가능성 같은 측정 가능한 과제 속성으로 최적 아키텍처를 예측하는 모델을 만들었고, 이 모델이 보지 못한 과제 구성의 87%에서 최적 조정 전략을 맞혔다고 밝혔다.
🧠 상세 정리
1. 에이전트 시스템 확산과 평가 문제
글은 AI 에이전트를 추론하고 계획하며 행동할 수 있는 시스템으로 정의하면서, 이들이 코딩 보조자나 개인 건강 코치 같은 실제 응용에서 점점 일반적인 패러다임이 되고 있다고 설명한다. 전통적인 머신러닝 모델은 고립된 예측의 정확도를 최적화하는 지표를 중심으로 발전했지만, 에이전트는 지속적이고 다단계적인 상호작용을 수행한다는 점에서 복잡성이 다르다. 특히 한 번의 오류가 전체 워크플로에 연쇄적으로 영향을 줄 수 있기 때문에, 단순 정확도만으로는 시스템 설계의 품질을 판단하기 어렵다. 따라서 핵심 질문은 모델이 얼마나 많이 맞히는지가 아니라, 어떤 구조로 에이전트 시스템을 설계해야 최적 성능을 내는가로 이동한다.
2. ‘더 많은 에이전트가 더 좋다’는 가정의 검증
연구진은 실무자들이 흔히 사용하는 휴리스틱, 즉 전문화된 에이전트를 더 많이 추가하면 결과가 꾸준히 좋아질 것이라는 가정을 문제 삼는다. 기존 연구 중에는 에이전트 수가 늘면 LLM 성능이 확장된다고 보고하거나, 다중 에이전트 협업이 개별 에이전트보다 집단 추론에서 더 나은 결과를 낸다고 주장한 사례가 있었다. 그러나 이 글의 연구는 그러한 일반화를 그대로 받아들이지 않고, 180개 에이전트 구성을 대규모로 통제 평가해 실제로 언제 그런 효과가 나타나는지 확인하려 한다. 결론적으로 ‘더 많은 에이전트’ 접근은 종종 천장에 부딪히며, 과제의 속성과 맞지 않을 경우 성능을 떨어뜨릴 수도 있다는 점이 핵심 반론으로 제시된다.
3. 평가 설계와 비교한 에이전트 아키텍처
연구진은 먼저 어떤 과제가 ‘에이전트적’인지를 정의하려고 했으며, 정적인 전통 벤치마크가 모델의 지식은 측정해도 실제 배포 환경의 복잡성은 충분히 포착하지 못한다고 본다. 이후 단일 에이전트 시스템 하나와 네 가지 다중 에이전트 변형, 즉 독립형·중앙집중형·분산형·하이브리드 구조를 비교했다. 평가 대상은 금융 추론을 다루는 Finance-Agent, 웹 탐색을 다루는 BrowseComp-Plus, 계획 과제인 PlanCraft, 도구 사용을 다루는 Workbench 등 네 가지 다양한 벤치마크였다. 또한 OpenAI GPT, Google Gemini, Anthropic Claude라는 세 모델 계열에 걸쳐 구조를 평가해 모델 능력과 조정 전략의 관계도 함께 살폈다.
4. 병렬 과제에서의 성능 향상과 순차 과제에서의 성능 저하
결과는 다중 에이전트가 보편적 해결책이 아님을 보여준다. 성능은 더 강한 모델을 사용할수록 전반적으로 올라가는 경향이 있었지만, 다중 에이전트 구조는 설정과 과제에 따라 성능을 크게 끌어올리기도 하고 예기치 않게 떨어뜨리기도 했다. 금융 추론처럼 병렬화 가능한 과제에서는 서로 다른 에이전트가 매출 추세, 비용 구조, 시장 비교 같은 하위 문제를 동시에 분석할 수 있어 효과가 컸고, 중앙집중형 조정은 단일 에이전트 대비 80.9% 향상을 보였다. 반면 PlanCraft처럼 엄격한 순차 추론이 필요한 과제에서는 모든 다중 에이전트 변형이 39~70% 성능 저하를 기록했으며, 연구진은 에이전트 간 의사소통 부담이 추론 흐름을 분절시킨다고 해석했다.
5. 도구 조정 비용과 오류 증폭 문제
연구진은 과제가 더 많은 도구를 요구할수록 여러 에이전트를 조정하는 비용이 불균형적으로 커지는 ‘도구-조정 트레이드오프’를 확인했다. 예컨대 많은 도구에 접근해야 하는 코딩 에이전트 같은 상황에서는 에이전트 수를 늘리는 것 자체가 추가적인 조정 세금을 발생시킨다는 설명이다. 신뢰성 측면에서는 한 에이전트의 실수가 최종 결과로 전파되는 비율인 오류 증폭을 측정했다. 독립형 다중 에이전트 시스템은 서로의 작업을 점검하는 장치 없이 병렬로 작동했기 때문에 오류를 17.2배 증폭시켰다. 반면 중앙집중형 시스템은 오케스트레이터가 검증 병목 역할을 하며 오류 전파를 막아 오류 증폭을 4.4배로 억제했다.
6. 정량적 원칙과 예측 모델의 의미
연구진은 사후 분석에 그치지 않고, 도구 수와 과제의 분해 가능성 같은 측정 가능한 속성으로 어떤 아키텍처가 가장 잘 작동할지 예측하는 모델을 개발했다. 이 모델은 R^2 = 0.513의 설명력을 보였고, 보지 못한 과제 구성의 87%에서 최적 조정 전략을 올바르게 식별했다. 이는 개발자가 단순히 에이전트 무리를 쓸지 강력한 단일 모델을 쓸지 감으로 정하는 단계에서 벗어나, 순차 의존성과 도구 밀도 같은 과제 속성을 보고 공학적 결정을 내릴 수 있음을 시사한다. 글의 결론은 더 똑똑한 기반 모델이 다중 에이전트의 필요를 없애는 것이 아니라, 올바른 구조일 때 그 필요를 가속한다는 것이다.
🧾 핵심 주장 / 시사점
- 다중 에이전트의 성패는 에이전트 수보다 과제가 병렬로 분해될 수 있는지, 그리고 조정 비용이 실제 추론 이득을 넘어서지 않는지에 달려 있다.
- 중앙집중형 오케스트레이터는 단순한 관리 계층이 아니라 오류 전파를 줄이는 검증 병목으로 작동할 수 있어, 실서비스 신뢰성 설계에서 중요한 변수로 보인다.
- 에이전트 시스템 설계는 휴리스틱보다 과제의 순차 의존성, 도구 밀도, 분해 가능성 같은 측정 가능한 속성에 기반해 선택하는 방향으로 이동하고 있다.
✅ 액션 아이템
- 에이전트 시스템을 설계할 때 단일 모델, 병렬 분해, 중앙집중형 오케스트레이션 중 어떤 구조가 과제 특성에 맞는지 사전 평가 기준을 만든다.
- 순차 의존성이 높은 작업과 병렬 분해가 가능한 작업을 구분하고, 조정 비용이 추론 이득을 넘지 않는지 실험 지표로 확인한다.
- 다중 에이전트 평가에서는 최종 정답률뿐 아니라 오류 전파, 검증 병목, tool-use 밀도, coordination overhead를 함께 기록한다.
❓ 열린 질문
- 강한 단일 모델과 여러 약한 에이전트를 비교할 때, 어떤 과제 속성이 multi-agent 구조의 이득을 가장 잘 예측할까?
- 중앙집중형 오케스트레이터는 언제 오류를 줄이는 검증 계층이 되고, 언제 병목과 비용 증가 요인이 될까?
- 에이전트 시스템의 확장성을 과학적으로 측정하려면 정답률 외에 어떤 coordination metric이 필요할까?