Eliminating Wasted Toolcalls: How to Make Agents Know When to STOP
Quick Summary
Eliminating Wasted Toolcalls의 핵심은 에이전트가 더 많이 시도하는 것이 아니라, 불가능성이 확인된 순간 언제 멈출지 아는 능력을 harness와 context 설계로 강화하는 것이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Eliminating Wasted Toolcalls의 핵심은 에이전트가 더 많이 시도하는 것이 아니라, 불가능성이 확인된 순간 언제 멈출지 아는 능력을 harness와 context 설계로 강화하는 것이다.
📌 핵심 요점
- 공개 모델 자체의 성능 확장이 둔화되는 흐름 속에서, 영상은 앞으로의 에이전트 성능 개선 여지가 모델 가중치보다 agent harness 설계에 더 많이 있을 수 있다고 본다.
- 일반 챗봇의 abstention은 “모른다”고 한 번 판단하는 문제에 가깝지만, 에이전트는 매 단계마다 도구를 더 쓸지, 사용자에게 물을지, 불가능하다고 멈출지를 반복적으로 결정해야 한다.
- 낭비되는 toolcall은 단순한 불편이 아니라 시간, 비용, 토큰, 컨텍스트를 동시에 소모하는 운영 문제이며, 특히 네 번째 턴 이후에도 명확한 불가능 신호를 무시하면 flailing action이 누적된다.
- Convolve는 모델을 fine-tuning하지 않고, 전체 실행 trajectory에서 “이미 멈췄어야 했던 지점”과 “지연을 만든 toolcall”을 찾아 짧은 rule playbook으로 증류한 뒤 다음 실행 context에 넣는 방식이다.
- 영상의 실험·재현 결과에서 Convolve는 timely abstention과 wasted action 감소에 효과를 보였으며, 특히 능력은 있지만 멈추는 규율이 약한 모델에서 개선 폭이 더 크게 나타났다.
🧩 배경과 문제 정의
- 이 영상은 모델 자체의 성능 확장만으로는 공개 AI 시스템의 역량 향상이 점점 제한될 수 있다는 문제의식에서 출발한다.
- 따라서 앞으로의 성능 차이는 모델 가중치보다 에이전트를 어떻게 감싸고 운용하는지, 즉 agent harness 설계에서 더 크게 발생할 수 있다고 본다.
- 핵심 문제는 에이전트가 애매하거나 불가능한 요청을 받았을 때에도 도구 호출을 계속 반복하면서 시간, 비용, 토큰, 컨텍스트를 낭비한다는 점이다.
- 기존 챗봇의 abstention은 “모르면 모른다고 말하기”에 가까운 단일 턴 판단이지만, 에이전트는 여러 단계의 루프 안에서 계속 행동할지, 추가 질문을 할지, 불가능하다고 멈출지를 반복적으로 결정해야 한다.
- Convolve는 모델 가중치를 직접 바꾸지 않고, 전체 실행 궤적과 낭비된 도구 호출을 학습 신호로 사용해 다음 실행에서 더 이른 중단을 유도하는 context engineering 접근으로 제시된다.
- 검증이 필요한 내용: 입력된 section-detail 기준으로 영상 말미의 마지막 확인 가능한 타임스탬프는 17:01이며, 17:01 이후의 구체 발화나 추가 결론은 제공된 입력만으로 단정할 수 없다.
🕒 시간순 섹션별 상세정리
1. Agent harness가 중요해진 배경과 낭비되는 toolcall 문제
- 공개 모델의 성능 향상이 정체되는 흐름 속에서, 앞으로의 AI capability gain은 모델 자체보다 agent harness에서 더 많이 나올 수 있다는 문제의식이 드러난다. [00:01]
- 영상의 중심 질문은 에이전트가 언제 행동해야 하고 언제 멈춰야 하는지를 구분할 수 있느냐는 것이다. [00:30]
- 실제 사용 환경에서는 요청이 애매하거나 애초에 해결 불가능한 경우에도 에이전트가 도구 호출을 계속 이어가며 비용과 컨텍스트를 낭비하는 문제가 발생한다. [00:45]
2. 단일 턴 abstention과 반복형 에이전트 판단의 차이
- 일반 챗봇에서 abstention은 사용자의 질문에 대해 답을 모르면 꾸며내지 않고 “모른다”고 답하는 단일 결정에 가깝다. [02:12]
- 반면 에이전트는 파일 읽기, 명령 실행, 검색, 카탈로그 탐색 같은 도구를 반복적으로 사용하기 때문에 판단 지점이 한 번으로 끝나지 않는다. [02:30]
- 따라서 에이전트의 abstention 문제는 단순히 최종 답변에서 모른다고 말하는 문제가 아니라, 실행 루프 중간의 어느 시점에서 멈춰야 하는지를 판단하는 문제로 확장된다. [02:45]
3. 적절한 중단 시점과 불가능한 작업의 유형
- 두 번째 턴에서 작업이 불가능하다는 증거가 도착하면, 그 시점에서 멈추는 것은 timely stopping에 해당한다. [03:14]
- 세 번째 턴까지 추가 확인을 하는 것도 일정 부분 허용될 수 있지만, 그 이후에는 이미 충분한 증거가 있었는지 판단해야 한다. [03:29]
- 네 번째 턴 이후에도 다른 도구를 계속 시도하면, 이미 멈췄어야 할 구간을 넘어서 wasted tool call이 누적되는 상황이 된다. [03:32]
4. 논문 실험 설계와 timely abstention 실패 양상
- 논문의 실험은 존재하지 않는 상품을 찾는 WebShop 과제, 필요한 파일이나 패키지가 빠진 Terminal Bench 2.0 과제, 거짓 전제나 유효 답이 없는 QA abstention 과제로 구성된다. [05:25]
- 이 구성은 에이전트가 단순히 답을 맞히는지뿐 아니라, 불가능한 상황을 언제 인식하고 멈추는지를 비교하기 위한 설계로 이해할 수 있다. [05:40]
- 전체 실험 규모는 28,000개 작업, 13개 에이전트 시스템, 2개 scaffold이며, 서로 다른 환경과 하네스에서 abstention 행동을 비교한다. [05:41]
5. Convolve의 context evolution 방식과 실험 효과
- 실험 결과에서 모델 크기가 커진다고 timely abstention이 안정적으로 좋아지는 것은 아니었다. [06:26]
- reasoning을 추가하는 것은 중단 타이밍을 개선할 수 있지만, 동시에 전체 행동이 나빠질 수 있는 trade-off도 만들 수 있다. [06:41]
- 같은 모델이라도 harness가 달라지면 abstention 행동이 달라지므로, scaffold 설계는 모델 자체만큼 중요한 변수로 작동한다. [06:56]
- Convolve는 이런 문제를 모델 가중치 변경이 아니라 context evolution, 즉 실행 궤적에서 얻은 교훈을 다음 실행의 문맥에 반영하는 방식으로 다룬다. [07:11]
6. 축소 재현 실험의 benchmark와 미니 agent harness
- 발표자는 대형 Llama 모델을 로컬에서 돌릴 수 없기 때문에, 더 작은 규모의 abstention benchmark와 미니 실험 환경을 구성한다. [08:50]
- 이 재현 실험은 원 논문의 전체 규모를 그대로 복제하기보다는, 핵심 아이디어인 wasted tool call 감소와 timely abstention 개선이 작은 환경에서도 나타나는지를 확인하려는 방향에 가깝다. [09:05]
- 작업은 즉시 불가능한 요청, 검색 뒤 환경에서 불가능성이 드러나는 요청, 같은 형태지만 실제로는 해결 가능한 solvable twin까지 세 bucket의 30개 과제로 나뉜다. [09:20]
7. 축소 재현 환경과 하네스 조정
- 재현 실험은 fine-tuning을 사용하지 않고, 별도의 training set에서 distilled playbook을 만든 뒤 이를 context에 주입하는 방식으로 진행된다. [12:04]
- 평가는 held-out task로 수행해, playbook이 평가 과제를 직접 외우는 데이터 누출을 피하려 했다. [12:19]
- 원 논문보다 작은 training·validation set을 사용했고, 9B Qwen 모델이 agent, reflector, curator 역할을 모두 맡았다. [12:34]
- 실제 WebShop이나 터미널 환경 대신 fake tools가 들어갔기 때문에, 이 결과는 원 논문의 완전 재현이라기보다 축소된 실험 환경에서의 방향성 확인으로 보는 것이 적절하다. [12:49]
8. Qwen과 Llama 결과가 보여준 abstention 개선 폭
- Qwen 3.5 9B non-reasoning baseline은 timely abstention 45.7%를 기록했다. [14:30]
- Convolve를 추가한 뒤 timely abstention은 51.4%로 올라 5.7%p 개선됐고, mean wasted actions도 2.31에서 2.14로 줄었다. [14:45]
- Qwen에서는 다른 지표 악화가 거의 없었으며, 원 논문만큼 큰 폭은 아니더라도 wasted tool call을 줄이는 방향성은 재현됐다. [14:54]
- 이 결과는 작은 모델과 축소 환경에서도 context에 명시적인 중단 규칙을 주입하면 에이전트의 불필요한 행동을 줄일 수 있음을 시사한다. [15:09]
9. Playbook 원칙과 wasted tool call 감소의 의미
- Llama run에서 만들어진 playbook은 training set의 interaction trajectory에서 distilled된 것으로 드러난다. [16:37]
- 이 playbook의 핵심 원칙은 이미 task impossible 상태를 만든 observation이 있으면 즉시 abstain하라는 것이다. [16:52]
- 세부 규칙은 missing file 오류나 empty directory listing처럼 더 진행해도 해결 가능성이 낮은 신호가 나오면 멈추라는 식의 단순하고 명확한 기준으로 구성된다. [17:01]
- 영상의 마무리 논지는 에이전트의 성능 개선이 항상 더 많은 reasoning이나 더 큰 모델에서만 오는 것이 아니라, 언제 더 이상 도구를 호출하지 않아야 하는지에 대한 문맥 규칙과 하네스 설계에서도 나올 수 있다는 점으로 압축된다. [17:16]
🧾 결론
- 이 영상의 중심 메시지는 “더 똑똑한 모델”만으로는 에이전트의 낭비 행동을 충분히 줄이기 어렵고, 언제 멈출지 판단하게 만드는 context와 scaffold가 별도의 성능 축이라는 점이다.
- 에이전트가 바로 포기하는 것도 문제지만, 충분한 증거가 나온 뒤에도 계속 검색·파일 읽기·도구 호출을 반복하는 것은 비용과 지연을 키우는 명확한 실패 패턴이다.
- Convolve의 장점은 모델 가중치 변경 없이 실행 로그를 학습 신호로 삼는다는 데 있으며, reflection model과 curator model을 통해 “멈춤 규칙”을 다음 실행에 반영한다는 구조가 핵심이다.
- 영상 속 축소 재현에서는 Qwen 3.5 9B non-reasoning이 timely abstention 45.7%에서 51.4%로, Llama 3.1 8B가 23%에서 43%로 개선됐고, mean wasted actions도 줄어드는 방향을 보였다.
- 검증 필요: 축소 재현은 원 논문보다 작은 benchmark, fake tools, 제한된 task set을 사용했기 때문에 실제 production agent 환경에서도 같은 폭의 개선이 난다고 단정하기는 어렵다.
📈 투자·시사 포인트
- AI 에이전트 시장에서는 모델 크기나 benchmark 점수뿐 아니라, toolcall 비용을 줄이고 실패 루프를 조기에 끊는 harness·orchestration 역량이 중요한 차별화 요소가 될 수 있다.
- 기업 도입 관점에서는 에이전트가 문제를 해결하는 능력만큼이나, 불가능한 요청을 식별하고 적절히 멈추는 능력이 운영비, latency, 사용자 신뢰에 직접 연결된다.
- Convolve식 접근은 fine-tuning 없이 context playbook을 개선하는 방식이므로, 모델 교체보다 가볍게 실험할 수 있는 운영 최적화 방향으로 해석할 수 있다.
- 투자 관점에서는 “에이전트가 더 많은 일을 한다”는 서사보다 “불필요한 행동을 줄여 단위 작업당 비용과 실패율을 낮춘다”는 효율성 지표가 점점 더 중요해질 가능성이 있다.
- 검증 필요: 영상은 wasted toolcall 감소의 방향성을 보여주지만, 실제 비용 절감률, 서비스 안정성 개선, 다양한 도구 환경에서의 일반화 여부는 별도 production 로그와 A/B 테스트로 확인해야 한다.
⚠️ 불확실하거나 확인이 필요한 부분
- 검증 필요: 영상에서 언급된 논문 실험 규모인 “28,000개 작업, 13개 에이전트 시스템, 2개 scaffold”와 WebShop·Terminal Bench 2.0·QA abstention 구성은 원문 논문이나 실험 설정 문서를 통해 별도로 확인해야 한다.
- 검증 필요: Llama 3.3 70B의 WebShop timely recall이 26.7%에서 57.4%로, overall recall이 83%에서 100%로 개선됐다는 수치는 영상 설명 기준이므로 원 논문 표와 held-out 평가 조건 확인이 필요하다.
- 검증 필요: 축소 재현 실험에서 Qwen 3.5 9B와 Llama 3.1 8B가 각각 timely abstention과 mean wasted actions를 개선했다는 결과는 fake tools, 작은 benchmark, non-reasoning 설정 등 제한된 조건에서 나온 것이므로 일반화에는 주의가 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 에이전트 harness에 “불가능성 증거가 관찰된 뒤 몇 턴 안에 멈출 것인가”를 명시하는 stopping rule을 추가한다.
- missing file, empty directory listing, no match search result, false premise처럼 더 진행해도 성공 가능성이 낮은 관찰 신호를 도메인별 abstention trigger로 정리한다.
- 단순 성공률뿐 아니라 wasted tool calls, wasted tokens, mean wasted actions, stop timing을 로그 지표로 수집한다.
- 모든 impossible task에 solvable twin task를 붙여, 무조건 기권하는 전략이 좋은 성능처럼 보이지 않도록 평가셋을 구성한다.
❓ 열린 질문
- Convolve 방식으로 만든 playbook은 WebShop, 터미널 작업, QA처럼 서로 다른 환경을 넘어 얼마나 잘 전이될 수 있을까요?
- abstention을 빠르게 하도록 유도할수록 실제로 해결 가능한 어려운 작업을 너무 일찍 포기하는 부작용은 어느 정도 발생할까요?
- reasoning 모드가 stop timing에는 도움을 주면서 전체 행동을 악화시킬 수 있다면, 어떤 조건에서 reasoning을 켜거나 꺼야 할까요?