Why We Should Stop Designing Harnesses for AI Agents

🖼️ 인포그래픽

Why We Should Stop Designing Harnesses for AI Agents 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

AI 에이전트의 성능을 끌어올리는 핵심 장치인 harness는 더 이상 사람이 직접 설계하는 것이 아니라, AI가 스스로 설계하게 해야 한다는 주장입니다.

📌 핵심 요약

원문은 AI 에이전트의 harness를 사람이 계속 직접 설계하면 오히려 모델 잠재력을 제한하는 병목이 될 수 있다고 주장합니다.
저자는 harness가 특정 작업을 풀기 위해 필요한 모델 지능의 임계값을 만든다고 설명합니다.
모델이 너무 약하거나 너무 강한 경우에는 harness 품질의 영향이 작지만, 중간 수준 모델에서는 harness 품질이 결정적입니다.
과거에는 사람이 만든 harness가 AI가 만든 것보다 우수했지만, AI의 코딩·디버깅·반복 개선 능력이 좋아지며 전제가 바뀌고 있다고 봅니다.
저자는 최근 연구인 Meta Harness를 근거로, 중간 규모 모델에서는 AI가 반복적 harness engineering에서 인간보다 더 나은 성과를 보였다고 말합니다.
결론적으로 AI 에이전트의 잠재력을 보려면 인간 중심 harness 설계에서 물러나 AI가 자기 harness를 만들도록 해야 한다는 시사점을 제시합니다.

🧩 주요 포인트

Harness는 모델이 작업을 해결하기 위해 넘어야 하는 지능 임계값을 만든다.
좋은 harness와 나쁜 harness의 차이는 특히 “중간 수준” 모델에서 크게 드러난다.
과거에는 인간이 만든 harness가 더 좋았지만, AI의 시스템 설계 능력이 향상되며 상황이 뒤집힐 수 있다.
AI가 만든 harness가 더 좋아지는 구간에서는 인간이 만든 harness가 모델 잠재력을 가리는 병목이 된다.
저자는 이 변화를 “중요한 phase transition의 문턱”으로 해석한다.
앞으로의 에이전트 설계는 사람이 세부 구조를 짜는 방식보다 AI가 harness를 직접 개선하는 방향으로 이동해야 한다.

🧠 상세 정리

1. Harness는 모델 능력의 ‘임계값’을 만든다

저자는 AI 에이전트의 harness를 단순한 보조 장치가 아니라, 모델이 특정 작업을 해결할 수 있는지를 가르는 구조적 조건으로 봅니다. 기존 관점이 “모델은 고정하고 harness를 바꾼다”에 가까웠다면, 저자가 제안하는 관점은 “harness를 고정하고 모델 용량을 변화시켜 본다”는 방식입니다.

이때 특정 harness는 하나의 임계값 θ(h)를 만듭니다. 모델의 원시 지능이 이 임계값보다 높으면 해당 harness로 작업을 해결할 수 있고, 낮으면 해결하지 못합니다. 즉 harness는 모델의 능력을 직접 대체하는 것이 아니라, 모델이 능력을 발휘하기 위해 넘어야 하는 난이도선을 조정하는 장치로 설명됩니다.

2. Three Regimes Framework: harness가 중요한 구간은 ‘중간’이다

저자는 좋은 harness와 나쁜 harness를 비교하면서 세 가지 구간을 제시합니다. 첫 번째 구간은 모델이 너무 약해서 어떤 harness를 써도 작업을 해결하지 못하는 상태입니다. 두 번째 구간은 모델이 어느 정도 똑똑하지만, 좋은 harness가 있어야만 작업을 해결할 수 있는 상태입니다. 세 번째 구간은 모델이 충분히 강해서 harness 품질과 무관하게 작업을 해결하는 상태입니다.

핵심은 두 번째 구간입니다. 모델이 압도적으로 강하면 간단한 agent loop와 적절한 도구만으로도 충분하고, 모델이 너무 약하면 어떤 구조도 이를 구제하기 어렵습니다. 하지만 중간 수준 모델은 harness 품질에 따라 성공과 실패가 갈립니다. 저자는 이 구간에서 harness engineering이 가장 결정적인 역할을 한다고 봅니다.

3. 과거에는 인간이 만든 harness가 더 좋은 선택이었다

저자는 말과 마차의 비유를 다시 가져오며, 말과 AI의 결정적 차이를 짚습니다. 말은 자신의 harness를 만들 수 없지만 AI는 만들 수 있다는 점입니다. 과거 몇 년 동안은 인간이 만든 harness가 AI가 만든 harness보다 우수했다고 저자는 설명합니다.

이 시기에는 agent loop, tool-use pattern, memory structure, planning scaffold 같은 요소를 사람이 세심하게 설계하는 것이 좋은 에이전트를 만드는 핵심이었습니다. 저자 자신도 ACL’23 챗봇 harness, ICLR’24 VLM 기반 이미지 클러스터링 에이전트, PUBG용 게임 companion agent, coding agent 관련 프로젝트 등 여러 사례에서 직접 harness를 설계해 왔다고 밝힙니다. 이 부분은 저자의 주장이 단순한 관찰이 아니라, 자신이 참여했던 기존 방식에 대한 반성적 전환이라는 점을 보여줍니다.

4. 전제 변화: AI가 harness를 더 잘 만들기 시작한다

원문의 중심 thesis는 여기서 전환됩니다. AI는 코딩을 더 잘하게 되고, 디버깅을 더 잘하며, 시스템을 빠르게 반복 개선하는 능력도 좋아지고 있습니다. 저자는 이 흐름이 계속되면 AI가 인간보다 harness를 더 잘 설계하게 되는 상황이 온다고 봅니다.

이 경우 좋은 harness는 더 이상 h_human이 아니라 h_ai가 됩니다. Three Regimes Framework로 보면, 중간 수준 모델은 “인간이 만든 harness로는 실패하지만 AI가 만든 harness로는 성공하는” 구간에 들어갑니다. 따라서 사람이 직접 설계한 harness에 계속 의존하면, 실제로는 가능한 모델의 능력을 보지 못하게 됩니다. 저자는 Meta Harness 연구를 예로 들며, 중간 규모 모델에서 AI가 반복적 harness engineering에서 인간보다 우수한 성과를 보였다고 주장합니다.

5. 왜 중요한가: 인간 설계가 병목이 되는 순간

이 주장이 중요한 이유는 에이전트 성능 개선의 병목이 바뀔 수 있기 때문입니다. 기존에는 더 나은 harness를 사람이 설계하는 것이 모델 능력을 끌어내는 방법이었습니다. 그러나 AI가 더 나은 harness를 만들 수 있는 단계에 들어서면, 인간 설계는 더 이상 촉진제가 아니라 제한 조건이 될 수 있습니다.

저자는 이를 시간축이 포함된 phase transition으로 설명합니다. AI의 코딩 능력이 시간이 갈수록 증가한다고 가정하면, 어느 시점부터는 AI-made harness가 human-made harness보다 유리한 구간이 등장합니다. 이른바 “yellow regime”에서는 인간이 만든 구조를 기준으로 모델을 평가하면, 모델이 실제보다 덜 유능해 보일 수 있습니다. 이는 “mismanaged geniuses hypothesis”에 대한 또 다른 설명으로도 제시됩니다.

6. 기존 방식과의 차이: 설계자가 아니라 환경을 내주는 역할

기존의 에이전트 개발은 사람이 루프, 메모리, 도구 사용 방식, 계획 구조를 직접 짜는 방식에 가까웠습니다. 저자의 제안은 그 역할을 줄이고, AI가 스스로 자기 harness를 설계·반복·개선하도록 해야 한다는 방향입니다.

이는 인간의 역할이 완전히 사라진다는 뜻이라기보다, 세부 harness engineering의 중심을 AI에게 넘겨야 한다는 주장에 가깝습니다. 사람은 문제 설정, 평가 기준, 안전한 실행 환경, 결과 검증 같은 상위 수준의 역할에 집중하고, 중간 수준 모델의 성능을 끌어내는 구체적 scaffold는 AI가 탐색하게 하는 방식이 더 적절하다는 시사점으로 읽을 수 있습니다.

🧾 핵심 주장 / 시사점

원문 핵심 주장은 “AI 에이전트의 최적 harness는 인간이 설계한 것이 아니라 AI가 스스로 engineering한 것일 수 있다”는 것입니다.
Harness 품질은 모든 모델에서 똑같이 중요한 것이 아니라, 특히 중간 수준 능력을 가진 모델에서 결정적입니다.
AI의 코딩·디버깅·반복 개선 능력이 향상되면, 인간이 만든 harness는 모델 잠재력을 드러내는 도구가 아니라 가리는 병목이 될 수 있습니다.
Meta Harness 사례는 AI가 반복적 harness engineering에서 인간을 앞설 수 있다는 원문 속 근거로 제시됩니다.
앞으로의 에이전트 개발은 사람이 모든 scaffold를 직접 설계하는 방식에서, AI가 자기 구조를 개선하도록 만드는 방식으로 이동할 가능성이 있습니다.

✅ 액션 아이템

Kangwook Lee의 “horse-carriage analogy” 관련 이전 글을 함께 읽고, 이번 글의 전제와 연결 구조를 확인한다.
Three Regimes Framework를 기준으로 현재 사용 중인 AI agent harness가 어느 모델 구간에서 효과적인지 점검한다.
Meta Harness 연구가 어떤 작업과 모델 규모에서 AI-made harness의 우위를 보였는지 원문 기준으로 확인한다.
기존 h_human 방식의 agent loop, tool-use pattern, memory structure가 AI-generated harness와 어떻게 다른지 비교한다.

❓ 열린 질문

AI가 만든 harness가 인간이 만든 harness보다 낫다는 주장은 어떤 작업 범위와 모델 규모까지 일반화될 수 있을까?
AI-made harness가 더 우수해지는 구간에서도 안전성, 해석 가능성, 통제 가능성은 충분히 유지될 수 있을까?
인간은 harness 설계에서 물러난 뒤 어떤 평가 기준과 운영 구조를 제공해야 AI의 self-engineering을 효과적으로 활용할 수 있을까?