Eliminating Wasted Toolcalls: How to Make Agents Know When to STOP

🖼️ 인포그래픽

Eliminating Wasted Toolcalls: How to Make Agents Know When to STOP 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Eliminating Wasted Toolcalls의 핵심은 에이전트가 더 많이 시도하는 것이 아니라, 불가능성이 확인된 순간 언제 멈출지 아는 능력을 harness와 context 설계로 강화하는 것이다.

📌 핵심 요점

공개 모델 자체의 성능 확장이 둔화되는 흐름 속에서, 영상은 앞으로의 에이전트 성능 개선 여지가 모델 가중치보다 agent harness 설계에 더 많이 있을 수 있다고 본다.
일반 챗봇의 abstention은 “모른다”고 한 번 판단하는 문제에 가깝지만, 에이전트는 매 단계마다 도구를 더 쓸지, 사용자에게 물을지, 불가능하다고 멈출지를 반복적으로 결정해야 한다.
낭비되는 toolcall은 단순한 불편이 아니라 시간, 비용, 토큰, 컨텍스트를 동시에 소모하는 운영 문제이며, 특히 네 번째 턴 이후에도 명확한 불가능 신호를 무시하면 flailing action이 누적된다.
Convolve는 모델을 fine-tuning하지 않고, 전체 실행 trajectory에서 “이미 멈췄어야 했던 지점”과 “지연을 만든 toolcall”을 찾아 짧은 rule playbook으로 증류한 뒤 다음 실행 context에 넣는 방식이다.
영상의 실험·재현 결과에서 Convolve는 timely abstention과 wasted action 감소에 효과를 보였으며, 특히 능력은 있지만 멈추는 규율이 약한 모델에서 개선 폭이 더 크게 나타났다.

🧩 배경과 문제 정의

이 영상은 모델 자체의 성능 확장만으로는 공개 AI 시스템의 역량 향상이 점점 제한될 수 있다는 문제의식에서 출발한다.
따라서 앞으로의 성능 차이는 모델 가중치보다 에이전트를 어떻게 감싸고 운용하는지, 즉 agent harness 설계에서 더 크게 발생할 수 있다고 본다.
핵심 문제는 에이전트가 애매하거나 불가능한 요청을 받았을 때에도 도구 호출을 계속 반복하면서 시간, 비용, 토큰, 컨텍스트를 낭비한다는 점이다.
기존 챗봇의 abstention은 “모르면 모른다고 말하기”에 가까운 단일 턴 판단이지만, 에이전트는 여러 단계의 루프 안에서 계속 행동할지, 추가 질문을 할지, 불가능하다고 멈출지를 반복적으로 결정해야 한다.
Convolve는 모델 가중치를 직접 바꾸지 않고, 전체 실행 궤적과 낭비된 도구 호출을 학습 신호로 사용해 다음 실행에서 더 이른 중단을 유도하는 context engineering 접근으로 제시된다.
검증이 필요한 내용: 입력된 section-detail 기준으로 영상 말미의 마지막 확인 가능한 타임스탬프는 17:01이며, 17:01 이후의 구체 발화나 추가 결론은 제공된 입력만으로 단정할 수 없다.

🕒 시간순 섹션별 상세정리

1. Agent harness가 중요해진 배경과 낭비되는 toolcall 문제

공개 모델의 성능 향상이 정체되는 흐름 속에서, 앞으로의 AI capability gain은 모델 자체보다 agent harness에서 더 많이 나올 수 있다는 문제의식이 드러난다. [00:01]
영상의 중심 질문은 에이전트가 언제 행동해야 하고 언제 멈춰야 하는지를 구분할 수 있느냐는 것이다. [00:30]
실제 사용 환경에서는 요청이 애매하거나 애초에 해결 불가능한 경우에도 에이전트가 도구 호출을 계속 이어가며 비용과 컨텍스트를 낭비하는 문제가 발생한다. [00:45]

2. 단일 턴 abstention과 반복형 에이전트 판단의 차이

일반 챗봇에서 abstention은 사용자의 질문에 대해 답을 모르면 꾸며내지 않고 “모른다”고 답하는 단일 결정에 가깝다. [02:12]
반면 에이전트는 파일 읽기, 명령 실행, 검색, 카탈로그 탐색 같은 도구를 반복적으로 사용하기 때문에 판단 지점이 한 번으로 끝나지 않는다. [02:30]
따라서 에이전트의 abstention 문제는 단순히 최종 답변에서 모른다고 말하는 문제가 아니라, 실행 루프 중간의 어느 시점에서 멈춰야 하는지를 판단하는 문제로 확장된다. [02:45]

3. 적절한 중단 시점과 불가능한 작업의 유형

두 번째 턴에서 작업이 불가능하다는 증거가 도착하면, 그 시점에서 멈추는 것은 timely stopping에 해당한다. [03:14]
세 번째 턴까지 추가 확인을 하는 것도 일정 부분 허용될 수 있지만, 그 이후에는 이미 충분한 증거가 있었는지 판단해야 한다. [03:29]
네 번째 턴 이후에도 다른 도구를 계속 시도하면, 이미 멈췄어야 할 구간을 넘어서 wasted tool call이 누적되는 상황이 된다. [03:32]

4. 논문 실험 설계와 timely abstention 실패 양상

논문의 실험은 존재하지 않는 상품을 찾는 WebShop 과제, 필요한 파일이나 패키지가 빠진 Terminal Bench 2.0 과제, 거짓 전제나 유효 답이 없는 QA abstention 과제로 구성된다. [05:25]
이 구성은 에이전트가 단순히 답을 맞히는지뿐 아니라, 불가능한 상황을 언제 인식하고 멈추는지를 비교하기 위한 설계로 이해할 수 있다. [05:40]
전체 실험 규모는 28,000개 작업, 13개 에이전트 시스템, 2개 scaffold이며, 서로 다른 환경과 하네스에서 abstention 행동을 비교한다. [05:41]

5. Convolve의 context evolution 방식과 실험 효과

실험 결과에서 모델 크기가 커진다고 timely abstention이 안정적으로 좋아지는 것은 아니었다. [06:26]
reasoning을 추가하는 것은 중단 타이밍을 개선할 수 있지만, 동시에 전체 행동이 나빠질 수 있는 trade-off도 만들 수 있다. [06:41]
같은 모델이라도 harness가 달라지면 abstention 행동이 달라지므로, scaffold 설계는 모델 자체만큼 중요한 변수로 작동한다. [06:56]
Convolve는 이런 문제를 모델 가중치 변경이 아니라 context evolution, 즉 실행 궤적에서 얻은 교훈을 다음 실행의 문맥에 반영하는 방식으로 다룬다. [07:11]

6. 축소 재현 실험의 benchmark와 미니 agent harness

발표자는 대형 Llama 모델을 로컬에서 돌릴 수 없기 때문에, 더 작은 규모의 abstention benchmark와 미니 실험 환경을 구성한다. [08:50]
이 재현 실험은 원 논문의 전체 규모를 그대로 복제하기보다는, 핵심 아이디어인 wasted tool call 감소와 timely abstention 개선이 작은 환경에서도 나타나는지를 확인하려는 방향에 가깝다. [09:05]
작업은 즉시 불가능한 요청, 검색 뒤 환경에서 불가능성이 드러나는 요청, 같은 형태지만 실제로는 해결 가능한 solvable twin까지 세 bucket의 30개 과제로 나뉜다. [09:20]

7. 축소 재현 환경과 하네스 조정

재현 실험은 fine-tuning을 사용하지 않고, 별도의 training set에서 distilled playbook을 만든 뒤 이를 context에 주입하는 방식으로 진행된다. [12:04]
평가는 held-out task로 수행해, playbook이 평가 과제를 직접 외우는 데이터 누출을 피하려 했다. [12:19]
원 논문보다 작은 training·validation set을 사용했고, 9B Qwen 모델이 agent, reflector, curator 역할을 모두 맡았다. [12:34]
실제 WebShop이나 터미널 환경 대신 fake tools가 들어갔기 때문에, 이 결과는 원 논문의 완전 재현이라기보다 축소된 실험 환경에서의 방향성 확인으로 보는 것이 적절하다. [12:49]

8. Qwen과 Llama 결과가 보여준 abstention 개선 폭

Qwen 3.5 9B non-reasoning baseline은 timely abstention 45.7%를 기록했다. [14:30]
Convolve를 추가한 뒤 timely abstention은 51.4%로 올라 5.7%p 개선됐고, mean wasted actions도 2.31에서 2.14로 줄었다. [14:45]
Qwen에서는 다른 지표 악화가 거의 없었으며, 원 논문만큼 큰 폭은 아니더라도 wasted tool call을 줄이는 방향성은 재현됐다. [14:54]
이 결과는 작은 모델과 축소 환경에서도 context에 명시적인 중단 규칙을 주입하면 에이전트의 불필요한 행동을 줄일 수 있음을 시사한다. [15:09]

9. Playbook 원칙과 wasted tool call 감소의 의미

Llama run에서 만들어진 playbook은 training set의 interaction trajectory에서 distilled된 것으로 드러난다. [16:37]
이 playbook의 핵심 원칙은 이미 task impossible 상태를 만든 observation이 있으면 즉시 abstain하라는 것이다. [16:52]
세부 규칙은 missing file 오류나 empty directory listing처럼 더 진행해도 해결 가능성이 낮은 신호가 나오면 멈추라는 식의 단순하고 명확한 기준으로 구성된다. [17:01]
영상의 마무리 논지는 에이전트의 성능 개선이 항상 더 많은 reasoning이나 더 큰 모델에서만 오는 것이 아니라, 언제 더 이상 도구를 호출하지 않아야 하는지에 대한 문맥 규칙과 하네스 설계에서도 나올 수 있다는 점으로 압축된다. [17:16]

🧾 결론

이 영상의 중심 메시지는 “더 똑똑한 모델”만으로는 에이전트의 낭비 행동을 충분히 줄이기 어렵고, 언제 멈출지 판단하게 만드는 context와 scaffold가 별도의 성능 축이라는 점이다.
에이전트가 바로 포기하는 것도 문제지만, 충분한 증거가 나온 뒤에도 계속 검색·파일 읽기·도구 호출을 반복하는 것은 비용과 지연을 키우는 명확한 실패 패턴이다.
Convolve의 장점은 모델 가중치 변경 없이 실행 로그를 학습 신호로 삼는다는 데 있으며, reflection model과 curator model을 통해 “멈춤 규칙”을 다음 실행에 반영한다는 구조가 핵심이다.
영상 속 축소 재현에서는 Qwen 3.5 9B non-reasoning이 timely abstention 45.7%에서 51.4%로, Llama 3.1 8B가 23%에서 43%로 개선됐고, mean wasted actions도 줄어드는 방향을 보였다.
검증 필요: 축소 재현은 원 논문보다 작은 benchmark, fake tools, 제한된 task set을 사용했기 때문에 실제 production agent 환경에서도 같은 폭의 개선이 난다고 단정하기는 어렵다.

📈 투자·시사 포인트

AI 에이전트 시장에서는 모델 크기나 benchmark 점수뿐 아니라, toolcall 비용을 줄이고 실패 루프를 조기에 끊는 harness·orchestration 역량이 중요한 차별화 요소가 될 수 있다.
기업 도입 관점에서는 에이전트가 문제를 해결하는 능력만큼이나, 불가능한 요청을 식별하고 적절히 멈추는 능력이 운영비, latency, 사용자 신뢰에 직접 연결된다.
Convolve식 접근은 fine-tuning 없이 context playbook을 개선하는 방식이므로, 모델 교체보다 가볍게 실험할 수 있는 운영 최적화 방향으로 해석할 수 있다.
투자 관점에서는 “에이전트가 더 많은 일을 한다”는 서사보다 “불필요한 행동을 줄여 단위 작업당 비용과 실패율을 낮춘다”는 효율성 지표가 점점 더 중요해질 가능성이 있다.
검증 필요: 영상은 wasted toolcall 감소의 방향성을 보여주지만, 실제 비용 절감률, 서비스 안정성 개선, 다양한 도구 환경에서의 일반화 여부는 별도 production 로그와 A/B 테스트로 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

검증 필요: 영상에서 언급된 논문 실험 규모인 “28,000개 작업, 13개 에이전트 시스템, 2개 scaffold”와 WebShop·Terminal Bench 2.0·QA abstention 구성은 원문 논문이나 실험 설정 문서를 통해 별도로 확인해야 한다.
검증 필요: Llama 3.3 70B의 WebShop timely recall이 26.7%에서 57.4%로, overall recall이 83%에서 100%로 개선됐다는 수치는 영상 설명 기준이므로 원 논문 표와 held-out 평가 조건 확인이 필요하다.
검증 필요: 축소 재현 실험에서 Qwen 3.5 9B와 Llama 3.1 8B가 각각 timely abstention과 mean wasted actions를 개선했다는 결과는 fake tools, 작은 benchmark, non-reasoning 설정 등 제한된 조건에서 나온 것이므로 일반화에는 주의가 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

에이전트 harness에 “불가능성 증거가 관찰된 뒤 몇 턴 안에 멈출 것인가”를 명시하는 stopping rule을 추가한다.
missing file, empty directory listing, no match search result, false premise처럼 더 진행해도 성공 가능성이 낮은 관찰 신호를 도메인별 abstention trigger로 정리한다.
단순 성공률뿐 아니라 wasted tool calls, wasted tokens, mean wasted actions, stop timing을 로그 지표로 수집한다.
모든 impossible task에 solvable twin task를 붙여, 무조건 기권하는 전략이 좋은 성능처럼 보이지 않도록 평가셋을 구성한다.

❓ 열린 질문

Convolve 방식으로 만든 playbook은 WebShop, 터미널 작업, QA처럼 서로 다른 환경을 넘어 얼마나 잘 전이될 수 있을까요?
abstention을 빠르게 하도록 유도할수록 실제로 해결 가능한 어려운 작업을 너무 일찍 포기하는 부작용은 어느 정도 발생할까요?
reasoning 모드가 stop timing에는 도움을 주면서 전체 행동을 악화시킬 수 있다면, 어떤 조건에서 reasoning을 켜거나 꺼야 할까요?