Creating a New Fable? Testing Mixture of Agents in Hermes Agent

🖼️ 인포그래픽

Creating a New Fable? Testing Mixture of Agents in Hermes Agent 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Hermes Agent의 Mixture of Agents 테스트는 단일 모델보다 더 나은 시각 품질과 스타일을 만들 수 있지만, 비용·속도·모델 조합에 따라 실전 효율은 크게 달라진다는 점을 보여준다.

📌 핵심 요점

Hermes Agent의 MOA는 여러 reference model의 제안을 aggregator model이 종합해 최종 도구 호출과 응답을 결정하는 구조다.
GLM 5.2 단일 baseline과 오픈웨이트 MOA 조합을 같은 미니게임 제작 과제로 비교했을 때, MOA는 결과물의 시각 품질과 인터랙션을 개선했지만 실행 시간은 약 13분에서 약 35분으로 크게 늘었다.
오픈웨이트 MOA 테스트의 비용은 baseline 약 38센트 대비 약 47센트로 큰 차이는 아니었지만, 시간 부담은 훨씬 두드러졌다.
GPT 5.5 단일 모델과 GPT 5.5 aggregator에 Grok 계열 reference model을 붙인 조합에서는 MOA가 오히려 더 빠르게 끝났고, 결과물의 시네마틱한 스타일과 장르적 분위기가 강화됐다.
영상의 핵심 메시지는 MOA가 항상 더 빠르거나 저렴한 해법은 아니지만, 서로 다른 강점을 가진 모델을 조합하면 품질·스타일·창의성의 균형을 바꿀 수 있다는 것이다.

🧩 배경과 문제 정의

이 영상은 Hermes Agent의 mixture of agents, 즉 여러 모델의 분석을 결합해 단일 모델보다 더 나은 결과를 얻을 수 있는지 검증하는 실험을 다룬다.
핵심 문제는 단순히 “품질이 좋아지는가”가 아니라, 여러 LLM 호출이 들어가는 만큼 비용과 속도 부담을 감수할 가치가 있는가이다.
비교 방식은 같은 프롬프트로 단일 모델 baseline과 MOA 구성을 각각 실행한 뒤, 결과물의 완성도, 실행 시간, 비용을 나란히 보는 구조다.
테스트 과제는 빌드 단계 없이 CDN import만 사용하는 단일 HTML 브라우저 미니게임 제작이다.
과제에는 Three.js scene, custom GLSL energy orb, GSAP 애니메이션, staggered title entrance, 키보드 조작 캐릭터 등 여러 구현 요소가 포함돼 있어 모델의 코딩 안정성과 시각적 구성 능력을 비교하기에 적합하다.
검증이 필요한 내용: Hermes Bench에서 특정 frontier 모델보다 몇 퍼센트 높다는 성능 수치, OpenRouter Fusion·Sakana AI Gugu와의 구체적 비교, 각 모델 조합의 실제 비용 효율성은 영상 내 설명과 실험 조건에 기반한 주장으로, 별도 외부 검증 없이는 일반화하기 어렵다.

🕒 시간순 섹션별 상세정리

1. MOA의 목적과 검증 질문

Hermes Agent의 MOA는 여러 모델의 응답과 판단을 결합해 단일 모델보다 높은 품질을 얻으려는 기능으로 묶인다. [00:16]
영상에서는 공개 전 Hermes Bench 기준으로 Opus 4.8보다 8%, GPT 5.5보다 11% 높다는 성능 수치가 언급되지만, 이는 별도 검증이 필요한 영상 내 주장으로 다뤄야 한다. [00:31]
OpenRouter Fusion과 Sakana AI의 Gugu처럼 유사한 아이디어가 이미 있었고, Hermes Agent의 MOA는 이런 다중 모델 접근을 에이전트 워크플로 안에 넣은 방식으로 드러난다. [00:46]

2. Hermes Agent 내부에서 MOA가 작동하는 방식

일반 Hermes Agent 흐름에서는 하나의 모델이 대화 맥락과 사용 가능한 도구를 보고 응답하거나 도구 사용을 요청한다. [02:05]
Hermes는 모델이 요청한 도구를 실행하고, 필요하면 그 결과를 다시 모델에 전달하면서 루프를 반복한다. [02:20]
MOA에서는 여러 reference model과 하나의 aggregator model이 역할을 나눠 맡는다. [02:35]
reference model은 대화 맥락을 보고 생각과 제안을 만들지만, 직접 도구를 호출하거나 최종 답변을 내지는 않는다. [02:50]
aggregator model은 reference model들의 제안을 참고해 최종 응답이나 다음 행동을 결정하는 중심 모델로 작동한다. [02:56]

3. MOA 선택과 preset 구성 방식

Hermes 터미널의 모델 선택 화면이나 Hermes chat의 /model 명령에서 mixture of agents를 선택할 수 있다. [03:01]
처음에는 기본 preset이 제공되며, 사용자는 이를 바탕으로 MOA 구성을 시험할 수 있다. [03:16]
dashboard의 model settings에는 mixture of agents 설정이 추가돼 있고, aggregator와 reference model 조합을 preset 형태로 관리할 수 있다. [03:33]
이 구성 방식은 단일 모델을 고르는 기존 방식보다 복잡하지만, 여러 모델의 장점을 조합할 수 있는 실험 공간을 제공한다. [03:48]

4. 단일 HTML 미니게임 과제와 baseline 조건

테스트 프롬프트는 build step 없이 CDN import만 사용하는 단일 HTML 파일을 만들라는 과제다. [05:29]
제작 대상은 Force Pirates Training Arena라는 브라우저 미니게임이다. [05:44]
요구사항에는 dark cinematic fullscreen arena UI와 Three.js scene 구성이 포함된다. [05:59]
중앙에는 custom GLSL energy orb가 있어야 하고, 키보드로 조작 가능한 작은 ship swordsman marker도 구현해야 한다. [06:14]
GSAP 애니메이션과 staggered title entrance 같은 시각 효과도 요구되어, 단순 정적 페이지보다 구현 난도가 높은 테스트로 설정된다. [06:29]

5. 단일 GLM baseline의 비용·시간·실행 품질

첫 비교 기준선은 같은 프롬프트를 단일 GLM 모델에 실행한 결과다. [07:05]
MOA는 여러 모델 호출이 들어가기 때문에 단일 모델보다 더 비싸고 느릴 가능성이 크다는 점이 먼저 문제로 제기된다. [07:20]
다만 품질이 높아져 후속 수정 요청을 줄일 수 있다면, 전체 작업 비용과 시간에서는 MOA가 유리할 수도 있다는 관점이 드러난다. [07:35]
예를 들어 단일 모델 결과가 한 번에 충분하지 않아 세 번의 follow-up이 필요하다면, MOA가 한 번에 제대로 끝났을 때 장기적으로 더 효율적일 수 있다. [07:45]
따라서 비교의 핵심은 1회 실행 비용이 아니라, 원하는 품질에 도달하기까지 필요한 전체 턴 수와 총비용이다. [08:00]

6. 테스트용 MOA preset 실행과 초기 비교 결과

MOA 테스트용 preset은 test one이라는 이름으로 만들어진다. [09:36]
aggregator는 baseline과 같은 New Portal GLM 모델로 맞춰, 단일 GLM 결과와 MOA 결과를 비교하기 쉬운 조건을 만든다. [09:51]
reference model에는 Kimi K 2.6과 Minimax M3가 들어간다. [09:58]
이 조합은 GLM aggregator, Kimi, Minimax라는 세 개의 open model 계열 조합으로 구성된다. [10:13]
실험의 의도는 aggregator 자체를 바꾸기보다, reference model을 추가했을 때 결과물 품질이 얼마나 달라지는지 보는 데 있다. [10:28]

7. 오픈웨이트 MOA 결과물은 품질을 높였지만 시간 부담이 컸다

GLM 오케스트레이터와 Kimi K2.6, MiniMax가 함께 작동한 MOA 결과는 단일 GLM baseline보다 나아진 측면이 있는 것으로 평가된다. [12:02]
비용 차이는 크게 벌어지지 않았지만, 실행 시간은 단일 모델 대비 거의 2~3배 길어진 것으로 나온다. [12:17]
이 결과는 MOA가 품질을 높일 가능성은 보여주지만, 속도 측면에서는 분명한 부담이 있음을 보여준다. [12:32]
모델 간 조율 방식이 아직 초기 단계일 가능성이 있고, 선택한 모델 조합이 최적이 아니었을 수도 있다는 한계가 드러난다. [12:47]
따라서 첫 번째 실험만으로 MOA가 항상 낫다고 결론 내리기는 어렵고, 조합과 작업 유형에 따라 결과가 달라질 수 있다. [13:02]

8. GPT 5.5 단일 기준선은 복잡한 애니메이션 대시보드를 안정적으로 만들었다

이후 비교는 GPT 5.5 단일 모델을 기준선으로 삼는 방식으로 전환된다. [14:31]
비교 대상은 GPT 5.5를 aggregator로 두고, Grok 계열 reference model을 붙인 MOA 조합이다. [14:46]
GPT 5.5는 코딩 능력이 강한 모델로 다뤄지며, 복잡한 애니메이션이나 인터랙티브 대시보드 구현에서 안정적인 기준선 역할을 한다. [15:01]
반면 영상에서는 GPT 5.5가 개성 있는 스타일이나 감각적인 분위기 표현에서는 상대적으로 약할 수 있다고 평가한다. [15:16]
Grok은 풍부한 감각, 분위기, 시각적 개성을 더할 수 있는 reference model 후보로 묶인다. [15:31]

9. GPT 5.5와 다중 Grok 조합은 더 빠른 실행과 강한 스타일 변화를 만들었다

두 번째 테스트에서는 OpenAI Codex GPT 5.5가 aggregator model로 사용된다. [16:56]
reference model에는 Grok 4.3, Composer Fast, Grok Build가 들어간다. [17:11]
이 조합은 GPT 5.5의 구현 안정성에 Grok 계열의 스타일 제안과 시각적 감각을 더하려는 구성으로 해석할 수 있다. [17:26]
같은 프롬프트를 새 세션과 빈 폴더에서 실행해, 단일 GPT 5.5 결과와 MOA 결과를 비교할 조건을 맞춘다. [17:54]
실험 조건을 분리함으로써 이전 생성물이나 세션 맥락이 결과에 영향을 주지 않도록 하려는 의도가 드러난다. [18:09]

10. Grok 참조 모델은 시각적 개성을 더했고 MOA 실험 가치는 남았다

Grok reference model이 더해진 결과물은 원본 GPT 5.5 단일 결과보다 덜 밋밋하고, 스타일 포인트가 더 강한 것으로 평가된다. [19:27]
시네마틱한 3D 효과와 시각적 분위기가 강화되면서, 단일 모델 결과와 다른 인상을 만든다. [19:42]
중앙 오브 주변을 도는 듯한 확대 효과와 깊이감은 단일 GPT 5.5 결과보다 더 입체적인 사용자 경험을 제공하는 요소로 나온다. [19:48]
결론적으로 MOA는 항상 비용과 시간을 줄이는 해법이라기보다, 모델 조합에 따라 품질과 스타일을 끌어올릴 수 있는 실험적 가치가 있는 접근으로 압축된다. [20:03]

🧾 결론

MOA는 단순히 “모델을 여러 개 쓰면 무조건 좋아진다”는 방식이 아니라, aggregator와 reference model의 역할 분담이 결과 품질을 좌우하는 구조로 설명된다.
첫 번째 GLM 기반 실험에서는 MOA가 단일 모델보다 더 부드럽고 완성도 있는 게임 결과물을 만들었지만, 실행 시간이 2~3배 가까이 길어지는 단점이 나타났다.
두 번째 GPT 5.5와 Grok 조합에서는 단일 GPT 5.5보다 스타일과 입체감이 강화됐고, 속도 부담도 줄어드는 다른 양상이 확인됐다.
따라서 MOA의 가치는 특정 모델 조합, 과제 성격, 품질 목표, 후속 수정 턴을 얼마나 줄일 수 있는지에 따라 달라진다.
검증 필요: 영상에서 언급된 Hermes Bench 성능 수치와 각 모델 조합의 비용·속도 결과는 영상 내 실험 조건에 따른 것이므로, 일반화하려면 더 많은 반복 테스트와 독립 비교가 필요하다.

📈 투자·시사 포인트

AI 에이전트 시장에서는 단일 최강 모델 경쟁뿐 아니라, 여러 모델을 조합해 역할별 강점을 끌어내는 orchestration 역량이 중요한 차별화 요소가 될 수 있다.
MOA가 품질을 높이더라도 비용과 지연 시간이 늘어나면 실무 채택에는 제약이 생기므로, 모델 조합의 경제성과 속도 최적화가 핵심 과제로 남는다.
오픈웨이트 모델 조합만으로도 품질 개선 가능성이 보였다는 점은, 폐쇄형 frontier 모델 의존도를 낮추려는 사용자와 기업에게 의미 있는 신호다.
GPT 5.5에 Grok 계열 reference model을 붙였을 때 스타일이 강화된 사례는, 기술 구현력과 창의적 표현력을 분리해 조합하는 방향의 가능성을 보여준다.
향후에는 “어떤 모델을 aggregator로 두고, 어떤 모델을 reference로 붙일 때 가장 효율적인가”가 AI 워크플로 설계와 비용 관리의 중요한 실험 주제가 될 가능성이 크다.

⚠️ 불확실하거나 확인이 필요한 부분

Hermes Bench에서 Opus 4.8보다 8%, GPT 5.5보다 11% 높다는 수치는 영상 내 언급 기준이며, 평가 조건·벤치마크 구성·모델 버전은 별도 확인이 필요하다.
GLM 단일 baseline과 MOA 비교는 반복 실험이 아닌 단일 실행 중심이라, 비용·시간·품질 차이를 일반화하기에는 근거가 제한적이다.
오픈웨이트 MOA 결과 개선이 Kimi K2.6, MiniMax, GLM 오케스트레이터 중 어느 모델의 기여 때문인지는 영상만으로 확정하기 어렵다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

동일 프롬프트를 단일 모델과 MOA 구성별로 최소 3회 이상 반복 실행해 평균 비용, 평균 시간, 실패율을 기록한다.
생성된 HTML 결과물을 스크린샷·영상·실행 로그로 저장하고, 렌더링 오류, 조작감, 애니메이션 완성도, 요구사항 충족 여부를 체크리스트로 비교한다.
GLM 단일, GLM+Kimi, GLM+MiniMax, GLM+Kimi+MiniMax처럼 reference model 조합을 분리해 어떤 조합이 실제 개선에 기여하는지 확인한다.
Hermes Agent의 현재 버전에서 /model, dashboard model settings, desktop app preset 설정 경로가 영상과 동일하게 동작하는지 확인한다.

❓ 열린 질문

어떤 reference model 조합이 코딩 품질, 시각 스타일, 실행 속도 사이에서 가장 좋은 균형을 만드는가?
MOA가 단일 강력 모델보다 실제로 경제적인 경우는 “첫 결과물 품질 개선”이 “후속 수정 턴 감소”로 이어질 때뿐인가?
aggregator model은 코딩 안정성이 강한 모델이 항상 유리한가, 아니면 과제 유형에 따라 창의적 모델이 aggregator가 되는 편이 더 나은가?