Gaia2 and ARE: Empowering the community to study agents
Quick Summary
Gaia2와 ARE는 기존 GAIA보다 현실적인 실패, 시간 제약, 모호성, 상호작용을 포함해 AI 에이전트를 더 깊이 평가하고 디버깅할 수 있게 하는 공개 벤치마크와 실행 환경이다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
Gaia2와 ARE는 기존 GAIA보다 현실적인 실패, 시간 제약, 모호성, 상호작용을 포함해 AI 에이전트를 더 깊이 평가하고 디버깅할 수 있게 하는 공개 벤치마크와 실행 환경이다.
📌 핵심 요약
- Gaia2는 2023년 공개된 GAIA의 후속 벤치마크로, 단순 정보 검색과 추론을 넘어 읽기·쓰기, 상호작용, 모호한 지시 처리, 실패 대응, 시간 민감 작업 등을 평가한다.
- ARE는 Gaia2를 실행하는 공개 연구 환경으로, 스마트폰 모형 환경과 이메일, 캘린더, 연락처, 쇼핑, 파일시스템 같은 앱을 제공하며 에이전트가 도구 호출로 이 앱들과 상호작용하게 한다.
- Gaia2는 1,000개의 새 인간 작성 시나리오를 바탕으로 실행, 검색, 모호성 처리, 적응성, 시간 추론, 에이전트 간 협업, 노이즈 허용성을 나누어 측정한다.
- 2025년 9월 기준 평가된 모델 중 전체 최고 점수는 high reasoning 모드의 GPT-5가 기록했고, 오픈소스 모델 중에서는 Kimi K2가 가장 좋은 성능을 보였다.
- 저자들은 원점수만으로는 에이전트의 품질을 충분히 설명할 수 없다고 보고, LLM 호출 수와 출력 토큰 수 같은 비용 지표까지 함께 고려해야 한다고 강조한다.
🧩 주요 포인트
- Gaia2는 2023년 공개된 GAIA의 후속 벤치마크로, 단순 정보 검색과 추론을 넘어 읽기·쓰기, 상호작용, 모호한 지시 처리, 실패 대응, 시간 민감 작업 등을 평가한다.
- ARE는 Gaia2를 실행하는 공개 연구 환경으로, 스마트폰 모형 환경과 이메일, 캘린더, 연락처, 쇼핑, 파일시스템 같은 앱을 제공하며 에이전트가 도구 호출로 이 앱들과 상호작용하게 한다.
- Gaia2는 1,000개의 새 인간 작성 시나리오를 바탕으로 실행, 검색, 모호성 처리, 적응성, 시간 추론, 에이전트 간 협업, 노이즈 허용성을 나누어 측정한다.
- 2025년 9월 기준 평가된 모델 중 전체 최고 점수는 high reasoning 모드의 GPT-5가 기록했고, 오픈소스 모델 중에서는 Kimi K2가 가장 좋은 성능을 보였다.
- 저자들은 원점수만으로는 에이전트의 품질을 충분히 설명할 수 없다고 보고, LLM 호출 수와 출력 토큰 수 같은 비용 지표까지 함께 고려해야 한다고 강조한다.
🧠 상세 정리
1. 이상적인 에이전트와 현실적 평가의 간극
글은 먼저 이상적인 AI 에이전트의 모습을 제시한다. 좋은 에이전트라면 사용자의 질문이나 요청을 받았을 때 지시의 모호성을 다루고, 단계별 계획을 세우며, 필요한 자원을 정확히 찾고, 중간에 빗나가지 않은 채 실행해야 한다. 또한 예상치 못한 사건에 적응하면서도 정확성을 유지하고 환각을 피해야 한다. 그러나 실제로 에이전트를 개발하고 디버깅해 본 사람이라면 이런 행동을 안정적으로 만들고 검증하는 일이 매우 지루하고 어렵다는 점을 알 수 있다. 기존 평가 환경은 평가하려는 작업과 강하게 결합되어 있고, 실제 세계의 유연성과 혼란을 충분히 반영하지 못한다는 것이 문제의 출발점이다.
2. Gaia2와 ARE가 등장한 이유
저자들은 기존 환경에서 웹페이지가 항상 정상적으로 로드되고, 돌발 사건이 발생하지 않으며, 비동기적 혼란이 없는 점을 한계로 지적한다. 실제 오픈월드 에이전트는 도구 실패, 새로운 정보의 등장, 시간 지연, 상충하는 요청 같은 상황을 계속 마주한다. Gaia2는 이런 더 복잡한 행동을 분석하기 위해 GAIA의 후속으로 소개된다. 동시에 Meta Agents Research Environments, 즉 ARE라는 공개 프레임워크가 함께 제공되어 에이전트를 실행하고 디버깅하고 평가할 수 있게 한다. Gaia2 데이터셋은 CC BY 4.0으로, ARE는 MIT 라이선스로 공개되어 커뮤니티가 직접 실험하고 확장할 수 있도록 설계되었다.
3. GAIA에서 Gaia2로 확장된 평가 범위
GAIA는 2023년에 공개된 에이전트 벤치마크로, 도구 사용, 웹 브라우징, 추론이 필요한 세 단계의 정보 검색 질문을 중심으로 했다. 그러나 2년 사이 가장 쉬운 단계는 모델에 너무 쉬워졌고, 커뮤니티는 가장 어려운 문제에도 접근하고 있었다. Gaia2는 이 상황에서 완전히 새롭고 더 어려운 에이전트 벤치마크로 제안된다. 특히 GAIA가 읽기 전용에 가까웠다면 Gaia2는 읽기와 쓰기를 모두 포함한다. 에이전트는 단순히 정보를 찾는 것이 아니라 앱에 변경을 가하고, 특정 시간 조건을 지키며, 실패하는 도구와 새로운 이벤트가 있는 환경에서 행동해야 한다.
4. Gaia2의 과제 유형과 평가하려는 능력
Gaia2는 1,000개의 새 인간 작성 시나리오를 기반으로 여러 과제군을 구성한다. 실행 과제는 연락처 업데이트 같은 다단계 지시 수행과 도구 사용을 평가하고, 검색 과제는 여러 출처에서 정보를 모으는 능력을 본다. 모호성 처리 과제는 일정 충돌처럼 상충하는 요청을 명확히 하는 능력을 다루며, 적응성 과제는 후속 정보가 주어졌을 때 이메일 수정처럼 시뮬레이션 변화에 반응하는지를 본다. 시간 및 시간적 추론 과제는 3분 지연 뒤 택시 주문처럼 시간에 민감한 행동을 요구한다. 여기에 직접 API 접근 없이 에이전트끼리 소통하는 협업, API 실패와 환경 불안정성을 견디는 노이즈 허용성도 포함된다.
5. ARE 실행 환경과 스마트폰 모형 세계
Gaia2는 ARE라는 실행 환경 위에서 작동하며, 사용자가 선택한 에이전트가 여러 애플리케이션과 미리 채워진 데이터에 접근하는 구조다. Gaia2를 위해 저자들은 사람이 일상에서 사용할 법한 스마트폰 모형 환경을 만들었다. 이 환경에는 이메일 같은 메시징 앱, 캘린더와 연락처, 쇼핑, 파일시스템 같은 유틸리티, 에이전트와 대화하는 채팅 인터페이스가 포함된다. 모든 애플리케이션은 에이전트가 도구 호출을 통해 사용할 수도 있다. 또한 데모에는 시뮬레이션된 인물의 과거 대화와 앱 상호작용 기록이 들어 있어, 에이전트가 단순한 빈 환경이 아니라 맥락이 있는 생활 환경에서 행동하도록 만든다.
6. 구조화된 실행 기록과 결과 분석 방식
ARE는 에이전트의 모든 상호작용을 실행 중 구조화된 trace로 자동 기록한다. 이 기록에는 도구 호출, API 응답, 모델의 사고 과정, 응답 지연 같은 시간 지표, 사용자 상호작용 등이 포함되며 JSON으로 내보낼 수 있다. 평가에서는 Llama 3.3-70B Instruct, Llama-4-Maverick, GPT-4o, Qwen3-235B-MoE, Grok-4, Kimi K2, Gemini 2.5 Pro, Claude 4 Sonnet, GPT-5의 여러 reasoning 모드가 비교된다. 모든 모델은 일관성을 위해 동일한 ReAct 루프, temperature 0.5, 16K 토큰 생성 제한에서 평가된다. 과제에 따라 Llama 3.3 Instruct 70B를 사용한 model-as-a-judge와 exact-match 평가가 조합된다.
7. 주요 결과와 아직 어려운 영역
2025년 9월 기준 평가 모델 중 전체 최고 성능은 high reasoning 모드의 GPT-5가 기록했고, 오픈소스 모델 중에서는 Kimi K2가 가장 높은 성과를 냈다. 일부 능력은 이미 최고 모델들이 거의 해결에 가까운 모습을 보인다. 예를 들어 단순 도구 호출과 지시 수행을 포함한 실행, 그리고 전반적인 검색 능력은 GAIA에서의 흐름처럼 강한 성능을 보인다. 반면 모호성, 적응성, 노이즈 관련 분할은 모든 모델에 여전히 도전적이다. 특히 시간 관련 분할이 현재 가장 어려운 영역으로 나타났으며, 모델들이 시간에 민감한 행동을 정확히 처리하는 데 큰 어려움을 겪는다고 설명한다.
8. 원점수 너머의 비용과 효율성 평가
저자들은 벤치마크 결과를 단순 원점수로만 보고하는 방식이 충분하지 않다고 강조한다. 어떤 모델이 정답에 도달했더라도 수천 개의 토큰을 쓰거나 몇 시간 동안 실행된 뒤에야 성공했다면, 훨씬 빠르고 적은 비용으로 성공한 모델과 같은 수준으로 보기 어렵다는 것이다. 따라서 논문에서는 평균 LLM 호출 수와 출력 토큰 수를 비용으로 정량화하고, 이를 이용해 비용 대비 성능의 파레토 프런티어를 함께 살펴본다. 글에는 점수와 금전적 비용, 시간의 관계가 논문에서 더 자세히 분석된다고 설명되어 있다. 이는 에이전트 평가에서 정확도뿐 아니라 실제 운용 가능성과 효율성을 함께 봐야 한다는 문제의식으로 이어진다.
9. Gaia2 평가 절차와 ARE 확장 가능성
글은 사용자가 자신의 모델을 Gaia2에서 평가하는 절차도 제시한다. 먼저 Python 환경에 Meta Agents Research Environment를 설치하고, execution, search, adaptability, time, ambiguity 같은 구성에 대해 벤치마크를 실행한다. 이후 oracle을 실행해 집계 점수 파일을 얻고, 모델 정보를 README에 추가한 뒤 리더보드에 공유해 Gaia2 trace를 중앙화할 수 있다. Gaia2 시나리오를 넘어 ARE 자체는 이메일 불러오기, 답장 작성, 캘린더 이벤트 추가, 회의 예약처럼 검증이 덜 명확한 상호작용형 assistant 평가에도 활용될 수 있다. 또한 MCP나 직접 연결을 통해 도구를 붙이거나, 시간 이벤트와 트리거를 포함한 자체 시나리오를 구현할 수 있다.
10. 데모 사례와 커뮤니티를 향한 결론
저자들은 ARE의 활용을 보여주기 위해 세 가지 간단한 데모를 소개한다. 첫 번째는 Linda Renne라는 시뮬레이션 인물의 가족에게 생일 파티 문자를 보내고, 이어서 같은 맥락을 기억해 캘린더 초대를 만드는 이벤트 조직 사례다. 두 번째는 Agent logs 도구를 열어 시스템 프롬프트, 사고 과정, 도구 호출, 결과를 정리된 로그로 확인하고 JSON으로 내보내는 trace 분석 사례다. 세 번째는 MCP를 통해 원격 로봇 팔을 연결하고, 예/아니오 질문에 팔을 흔들어 답하게 하는 확장 사례다. 글의 결론은 Gaia2와 ARE가 누구나 더 신뢰할 수 있고 적응적인 AI 에이전트를 만들도록 돕는 연구 도구가 되기를 바란다는 방향으로 마무리된다.
🧾 핵심 주장 / 시사점
- 에이전트 평가는 검색 정답률만으로는 부족하며, 모호한 요청·시간 제약·도구 실패·새 이벤트 같은 현실적 조건을 포함해야 실제 assistant 성능을 더 잘 드러낸다.
- Gaia2 결과는 단순 지시 수행과 검색에서 강한 모델이 반드시 모호성, 적응성, 노이즈, 시간 추론에서도 강한 것은 아니라는 점을 보여준다.
- ARE의 핵심 가치는 벤치마크 실행뿐 아니라 구조화된 trace, 커스텀 도구 연결, 시나리오 구현을 통해 에이전트를 반복적으로 디버깅하고 연구할 수 있게 하는 데 있다.
✅ 액션 아이템
- Gaia2의 평가 축을 기준으로 현재 에이전트 테스트가 실행, 모호성 처리, 시간 추론, 실패 대응을 충분히 다루는지 점검한다.
- ARE처럼 이메일, 캘린더, 파일시스템 등 앱 상호작용이 필요한 시나리오를 내부 에이전트 디버깅 과제로 분리해 본다.
- 모델 비교 시 정답률뿐 아니라 LLM 호출 수와 출력 토큰 수를 함께 기록해 성능 대비 비용을 평가한다.
❓ 열린 질문
- Gaia2의 세부 평가 축 중 현재 에이전트가 가장 취약할 가능성이 큰 영역은 실행, 모호성, 시간 추론, 노이즈 허용성 중 어디인가?
- ARE의 스마트폰 모형 환경과 앱 상호작용 방식은 실제 업무형 에이전트 평가에 얼마나 직접적으로 옮겨올 수 있는가?
- GPT-5 high reasoning 모드와 Kimi K2의 성능 차이를 비용 지표까지 포함하면 어떤 모델 선택 기준이 달라질 수 있는가?