Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

🖼️ 인포그래픽

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

VAKRA는 기업형 환경에서 에이전트가 API, 문서, 대화 맥락, 정책 제약을 넘나들며 다단계 추론과 도구 사용을 실제 실행 궤적으로 수행할 수 있는지 평가하는 실행 중심 벤치마크다.

📌 핵심 요약

VAKRA는 고립된 단일 능력 평가가 아니라, 8,000개 이상의 로컬 호스팅 API와 62개 도메인의 실제 데이터베이스, 도메인별 문서 컬렉션을 결합해 에이전트의 구성적 추론과 실행 능력을 측정한다.
벤치마크는 네 가지 능력으로 구성된다. 비즈니스 인텔리전스 API 체이닝, 대시보드 API 도구 선택, 대시보드 API 기반 멀티홉 추론, 그리고 API·문서·대화·정책 제약을 함께 다루는 멀티소스 멀티홉 추론이다.
각 작업은 단순 답변 생성이 아니라 도구 호출 순서, 입력, 중간 결과, 최종 응답까지 포함한 실행 궤적을 평가한다. 특히 Capability 4에서는 정책 준수 여부를 먼저 확인한 뒤 도구 궤적과 최종 응답을 평가한다.
평가 방식은 정답 도구 호출과 예측 도구 호출을 엄격히 한 단계씩 맞추기보다, 실행 결과가 필요한 정보를 모두 회수했는지를 확인한다. 부분 일치나 표현 차이가 있는 경우에는 LLM 기반 판정으로 보완한다.
본문은 VAKRA에서 모델 성능이 전반적으로 낮게 나타난다고 설명하며, 실제적인 에이전트 평가에서는 API 실행, 문서 검색, 멀티턴 대화, 도구 사용 정책 같은 제약을 함께 고려해야 함을 강조한다.

🧩 주요 포인트

VAKRA는 고립된 단일 능력 평가가 아니라, 8,000개 이상의 로컬 호스팅 API와 62개 도메인의 실제 데이터베이스, 도메인별 문서 컬렉션을 결합해 에이전트의 구성적 추론과 실행 능력을 측정한다.
벤치마크는 네 가지 능력으로 구성된다. 비즈니스 인텔리전스 API 체이닝, 대시보드 API 도구 선택, 대시보드 API 기반 멀티홉 추론, 그리고 API·문서·대화·정책 제약을 함께 다루는 멀티소스 멀티홉 추론이다.
각 작업은 단순 답변 생성이 아니라 도구 호출 순서, 입력, 중간 결과, 최종 응답까지 포함한 실행 궤적을 평가한다. 특히 Capability 4에서는 정책 준수 여부를 먼저 확인한 뒤 도구 궤적과 최종 응답을 평가한다.
평가 방식은 정답 도구 호출과 예측 도구 호출을 엄격히 한 단계씩 맞추기보다, 실행 결과가 필요한 정보를 모두 회수했는지를 확인한다. 부분 일치나 표현 차이가 있는 경우에는 LLM 기반 판정으로 보완한다.
본문은 VAKRA에서 모델 성능이 전반적으로 낮게 나타난다고 설명하며, 실제적인 에이전트 평가에서는 API 실행, 문서 검색, 멀티턴 대화, 도구 사용 정책 같은 제약을 함께 고려해야 함을 강조한다.

🧠 상세 정리

1. VAKRA가 평가하려는 문제의식

VAKRA는 AI 에이전트가 기업형 환경과 유사한 조건에서 제대로 추론하고 행동할 수 있는지를 평가하기 위해 제안된 벤치마크다. 기존 벤치마크가 특정 기술을 분리해 측정하는 경우가 많았다면, VAKRA는 여러 API와 문서를 넘나드는 구성적 추론을 중심에 둔다. 에이전트는 단순히 자연어 답변을 생성하는 데 그치지 않고, 필요한 도구를 선택하고, 여러 단계의 호출을 수행하며, 중간 결과를 바탕으로 최종 답을 만들어야 한다. 본문은 모델들이 VAKRA에서 낮은 성능을 보인다고 밝히며, 이러한 실행 기반 평가가 실제 에이전트의 한계를 드러내는 데 중요하다고 설명한다.

2. 실행 가능한 환경과 데이터 규모

VAKRA는 에이전트가 실제로 상호작용할 수 있는 실행 환경을 제공한다. 이 환경에는 62개 도메인에 걸친 실제 데이터베이스 기반의 8,000개 이상 로컬 호스팅 API가 포함되어 있으며, 각 도메인에 맞춘 문서 컬렉션도 함께 제공된다. 작업은 보통 3단계에서 7단계의 추론 체인을 요구하고, 구조화된 API 상호작용과 비정형 문서 검색을 결합해야 할 수 있다. 자연어로 주어진 도구 사용 제약 속에서 여러 정보원을 올바르게 다루어야 하므로, VAKRA는 단순 질의응답보다 실제 업무형 에이전트에 가까운 조건을 만든다.

3. Capability 1: 비즈니스 인텔리전스 API 체이닝

첫 번째 능력은 비즈니스 인텔리전스 API를 사용한 API 체이닝이다. 이 구간은 54개 도메인에 걸친 2,077개 테스트 인스턴스로 구성되며, SLOT-BIRD와 SEL-BIRD 컬렉션의 도구를 사용한다. 각 작업은 특정 JSON 데이터 소스에서 답을 도출해야 하고, 보통 1개에서 12개의 도구 호출을 연결해 최종 답에 도달한다. 예시에서는 축구팀 데이터를 불러온 뒤 play_speed, play_dribble, play_passing 조건으로 필터링하고 팀 이름을 얻는다. 핵심은 단일 API 호출이 아니라, 데이터 초기화와 필터링, 최종 값 추출까지의 절차를 일관되게 수행하는 능력이다.

4. get_data와 도구 노출 방식

Capability 1에서 각 인스턴스는 시작 시 get_data(tool_universe_id=id)라는 특수 도구를 호출해야 한다. 이 도구는 전체 데이터를 직접 전송하지 않고 가벼운 미리보기만 반환하며, 전체 데이터셋은 서버 측에 저장해 MCP 프로토콜을 통한 비효율적인 대용량 전송을 피한다. 동시에 해당 tool_universe_id에 맞는 도구 세트를 노출하고, 인스턴스의 도메인별 데이터베이스와 데이터 소스를 정렬한다. SLOT-BIRD는 필터링이나 정렬 같은 범용 데이터 조작 도구를 제공하고, SEL-BIRD는 더 특화된 함수와 키별 getter를 추가한다. 이 구조는 에이전트가 데이터 접근 절차와 도구 선택을 모두 정확히 이해해야 함을 보여준다.

5. Capability 2: 대시보드 API 도구 선택

두 번째 능력은 대시보드 API 환경에서 적절한 도구를 선택하는 과제다. 이 구간은 17개 도메인에 걸친 1,597개 인스턴스로 구성되며, 확장된 REST-BIRD 컬렉션의 도구를 사용한다. REST-BIRD는 대부분의 계산을 캡슐화한, 질의에 정렬된 구체적인 엔드포인트 스타일 인터페이스를 제공한다. 각 도메인에는 최소 6개에서 최대 328개의 도구가 있고 평균적으로 116개의 도구가 있으므로, 에이전트는 방대한 후보 중 필요한 API를 골라야 한다. OpenAI API Specification의 도구 목록 길이 제한 때문에, 저장소의 baseline agent는 간단한 shortlisting 기능으로 도구 목록을 관리한다.

6. Capability 3: API 기반 멀티홉 추론

세 번째 능력은 대시보드 API를 다시 사용하되, 멀티홉 추론을 추가한다. 이 구간은 38개 주제 도메인에서 나온 869개 테스트 인스턴스로 구성되며, 하나의 답을 얻기 위해 여러 조각의 근거를 추출하고 결합해야 한다. 각 질의는 1개에서 5개의 논리적 홉을 요구할 수 있다. 이는 단순히 올바른 API를 고르는 문제를 넘어, 이전 호출 결과가 다음 판단이나 호출의 근거가 되는 흐름을 처리해야 함을 의미한다. 본문과 outline 모두 멀티홉 깊이가 모델 성능에 부담을 준다는 문제의식을 보여주며, VAKRA가 추론 단계의 누적 실패를 드러내는 구조임을 시사한다.

7. Capability 4: 멀티소스, 멀티턴, 정책 준수

네 번째 능력은 VAKRA에서 가장 복잡한 구간으로, 41개 도메인에 걸친 644개 인스턴스로 구성된다. 이 과제는 REST-BIRD API뿐 아니라 도메인별 문서 인덱스를 함께 사용하며, 각 논리 홉마다 필요한 정보원이 API인지 문서 검색인지 달라질 수 있다. 데이터 생성 과정에서는 특정 홉에 필요한 정보가 한 정보원에만 존재하도록 소스를 오염 제거해, 에이전트가 올바른 근거 경로를 택했는지 확인할 수 있게 한다. 또한 일부 인스턴스는 멀티턴 대화 형식이며, 현재 대화 이력을 문맥으로 받아 현 턴에만 답해야 한다. 여기에 평문 도구 사용 정책까지 추가되어, 허용된 지식원과 사용 조건을 지키는지가 평가된다.

8. 실행 중심 평가와 워터폴 파이프라인

VAKRA의 평가는 최종 답만 보지 않고, 도구 호출과 입력, 중간 결과를 포함한 전체 실행 궤적을 함께 본다. 평가기는 각 샘플에 대해 예측 최종 응답과 도구 호출 궤적을 입력으로 받아, 예측된 도구 호출을 정답과 같은 환경에서 실행해 중간 출력을 검증한다. 평가는 워터폴 방식으로 진행되며, Capability 4에서는 먼저 정책 준수 여부를 프로그램적으로 확인한다. 그다음 예측 도구 호출 시퀀스를 정답 궤적과 비교하고, 유효한 궤적을 가진 샘플만 최종 응답 평가로 넘어간다. 이 구조는 앞 단계에서 실행이나 정책이 실패하면 뒤의 답변 품질만으로는 성공할 수 없도록 설계되어 있다.

9. 도구 궤적 비교와 최종 응답 판정

VAKRA는 예측 도구 호출이 정답 호출과 완전히 같은 순서와 형태여야 한다고 강제하지 않는다. 실행 가능한 환경에서는 에이전트가 다른 API 조합이나 다른 경로로도 필요한 정보를 얻을 수 있기 때문이다. 따라서 먼저 정답 도구 응답에 포함된 정보가 예측 도구 응답에서도 모두 회수되었는지를 프로그램적으로 확인한다. 부분 일치, 의미적 동등성, 정렬·집계·형식 차이처럼 자동 판정이 어려운 경우에는 CRAG 프레임워크에서 변형한 LLM 기반 평가를 사용한다. 이후 최종 응답은 예측 도구 출력에 근거했는지, 그리고 정답과 사실적으로 일치하는지를 LLM judge로 평가한다.

10. 벤치마크가 드러내는 에이전트의 실제 난점

본문은 VAKRA에서 모델들이 전반적으로 좋지 않은 성능을 보인다고 설명하며, 실패 원인을 이해하기 위해 작업 세부와 실패 양상을 분석한다고 밝힌다. 제공된 본문 범위에서 드러나는 핵심 난점은 도구 선택, API 체이닝, 멀티홉 근거 결합, 문서와 API의 소스 구분, 멀티턴 문맥 처리, 정책 준수 같은 요구가 동시에 작동한다는 점이다. outline도 정책 제약이 있는 도구 사용 환경에서 모델이 외부 제약을 추론 과정에 통합하는 데 어려움을 보인다는 취지를 보조적으로 제시한다. 결국 VAKRA는 정답 생성 능력보다 실행 제약 아래에서 완전한 정보 회수와 근거 있는 답변을 만들어내는 능력을 더 엄격히 묻는 벤치마크다.

🧾 핵심 주장 / 시사점

VAKRA의 핵심 가치는 최종 답의 표면적 정확도보다, 에이전트가 어떤 도구를 어떤 순서와 근거로 호출했는지를 평가 대상으로 끌어올린 데 있다.
기업형 에이전트 평가에서는 API 호출, 문서 검색, 대화 이력, 정책 제약이 분리된 문제가 아니라 하나의 실행 흐름 안에서 결합되므로, 단일 능력 벤치마크만으로는 실제 한계를 포착하기 어렵다.
VAKRA의 평가 설계는 다른 유효한 도구 경로를 허용하면서도 필요한 정보 회수와 grounded response를 요구하므로, 과도하게 경직된 정답 매칭과 단순 생성 평가 사이의 균형을 시도한다.

✅ 액션 아이템

원문에서 강조한 핵심 변화와 이해관계자를 기준으로 Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents의 영향을 정리한다.
다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.

❓ 열린 질문

Beyond LLMs Why Scalable Enterprise AI Adoption Depends on Agent Logic]]" "211. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
Enterprise Reinforcement Learning Research for Agents" "279. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
AI Coding Agents Fail at Teamwork Stanford HAI" "230. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
Skill Issue Andrej Karpathy on Code Agents, AutoResearch, and the Loopy Era of AI" "[[280. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?