Creating a New Fable? Testing Mixture of Agents in Hermes Agent
Quick Summary
Hermes Agent의 Mixture of Agents 테스트는 단일 모델보다 더 나은 시각 품질과 스타일을 만들 수 있지만, 비용·속도·모델 조합에 따라 실전 효율은 크게 달라진다는 점을 보여준다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Hermes Agent의 Mixture of Agents 테스트는 단일 모델보다 더 나은 시각 품질과 스타일을 만들 수 있지만, 비용·속도·모델 조합에 따라 실전 효율은 크게 달라진다는 점을 보여준다.
📌 핵심 요점
- Hermes Agent의 MOA는 여러 reference model의 제안을 aggregator model이 종합해 최종 도구 호출과 응답을 결정하는 구조다.
- GLM 5.2 단일 baseline과 오픈웨이트 MOA 조합을 같은 미니게임 제작 과제로 비교했을 때, MOA는 결과물의 시각 품질과 인터랙션을 개선했지만 실행 시간은 약 13분에서 약 35분으로 크게 늘었다.
- 오픈웨이트 MOA 테스트의 비용은 baseline 약 38센트 대비 약 47센트로 큰 차이는 아니었지만, 시간 부담은 훨씬 두드러졌다.
- GPT 5.5 단일 모델과 GPT 5.5 aggregator에 Grok 계열 reference model을 붙인 조합에서는 MOA가 오히려 더 빠르게 끝났고, 결과물의 시네마틱한 스타일과 장르적 분위기가 강화됐다.
- 영상의 핵심 메시지는 MOA가 항상 더 빠르거나 저렴한 해법은 아니지만, 서로 다른 강점을 가진 모델을 조합하면 품질·스타일·창의성의 균형을 바꿀 수 있다는 것이다.
🧩 배경과 문제 정의
- 이 영상은 Hermes Agent의 mixture of agents, 즉 여러 모델의 분석을 결합해 단일 모델보다 더 나은 결과를 얻을 수 있는지 검증하는 실험을 다룬다.
- 핵심 문제는 단순히 “품질이 좋아지는가”가 아니라, 여러 LLM 호출이 들어가는 만큼 비용과 속도 부담을 감수할 가치가 있는가이다.
- 비교 방식은 같은 프롬프트로 단일 모델 baseline과 MOA 구성을 각각 실행한 뒤, 결과물의 완성도, 실행 시간, 비용을 나란히 보는 구조다.
- 테스트 과제는 빌드 단계 없이 CDN import만 사용하는 단일 HTML 브라우저 미니게임 제작이다.
- 과제에는 Three.js scene, custom GLSL energy orb, GSAP 애니메이션, staggered title entrance, 키보드 조작 캐릭터 등 여러 구현 요소가 포함돼 있어 모델의 코딩 안정성과 시각적 구성 능력을 비교하기에 적합하다.
- 검증이 필요한 내용: Hermes Bench에서 특정 frontier 모델보다 몇 퍼센트 높다는 성능 수치, OpenRouter Fusion·Sakana AI Gugu와의 구체적 비교, 각 모델 조합의 실제 비용 효율성은 영상 내 설명과 실험 조건에 기반한 주장으로, 별도 외부 검증 없이는 일반화하기 어렵다.
🕒 시간순 섹션별 상세정리
1. MOA의 목적과 검증 질문
- Hermes Agent의 MOA는 여러 모델의 응답과 판단을 결합해 단일 모델보다 높은 품질을 얻으려는 기능으로 묶인다. [00:16]
- 영상에서는 공개 전 Hermes Bench 기준으로 Opus 4.8보다 8%, GPT 5.5보다 11% 높다는 성능 수치가 언급되지만, 이는 별도 검증이 필요한 영상 내 주장으로 다뤄야 한다. [00:31]
- OpenRouter Fusion과 Sakana AI의 Gugu처럼 유사한 아이디어가 이미 있었고, Hermes Agent의 MOA는 이런 다중 모델 접근을 에이전트 워크플로 안에 넣은 방식으로 드러난다. [00:46]
2. Hermes Agent 내부에서 MOA가 작동하는 방식
- 일반 Hermes Agent 흐름에서는 하나의 모델이 대화 맥락과 사용 가능한 도구를 보고 응답하거나 도구 사용을 요청한다. [02:05]
- Hermes는 모델이 요청한 도구를 실행하고, 필요하면 그 결과를 다시 모델에 전달하면서 루프를 반복한다. [02:20]
- MOA에서는 여러 reference model과 하나의 aggregator model이 역할을 나눠 맡는다. [02:35]
- reference model은 대화 맥락을 보고 생각과 제안을 만들지만, 직접 도구를 호출하거나 최종 답변을 내지는 않는다. [02:50]
- aggregator model은 reference model들의 제안을 참고해 최종 응답이나 다음 행동을 결정하는 중심 모델로 작동한다. [02:56]
3. MOA 선택과 preset 구성 방식
- Hermes 터미널의 모델 선택 화면이나 Hermes chat의
/model명령에서 mixture of agents를 선택할 수 있다. [03:01] - 처음에는 기본 preset이 제공되며, 사용자는 이를 바탕으로 MOA 구성을 시험할 수 있다. [03:16]
- dashboard의 model settings에는 mixture of agents 설정이 추가돼 있고, aggregator와 reference model 조합을 preset 형태로 관리할 수 있다. [03:33]
- 이 구성 방식은 단일 모델을 고르는 기존 방식보다 복잡하지만, 여러 모델의 장점을 조합할 수 있는 실험 공간을 제공한다. [03:48]
4. 단일 HTML 미니게임 과제와 baseline 조건
- 테스트 프롬프트는 build step 없이 CDN import만 사용하는 단일 HTML 파일을 만들라는 과제다. [05:29]
- 제작 대상은 Force Pirates Training Arena라는 브라우저 미니게임이다. [05:44]
- 요구사항에는 dark cinematic fullscreen arena UI와 Three.js scene 구성이 포함된다. [05:59]
- 중앙에는 custom GLSL energy orb가 있어야 하고, 키보드로 조작 가능한 작은 ship swordsman marker도 구현해야 한다. [06:14]
- GSAP 애니메이션과 staggered title entrance 같은 시각 효과도 요구되어, 단순 정적 페이지보다 구현 난도가 높은 테스트로 설정된다. [06:29]
5. 단일 GLM baseline의 비용·시간·실행 품질
- 첫 비교 기준선은 같은 프롬프트를 단일 GLM 모델에 실행한 결과다. [07:05]
- MOA는 여러 모델 호출이 들어가기 때문에 단일 모델보다 더 비싸고 느릴 가능성이 크다는 점이 먼저 문제로 제기된다. [07:20]
- 다만 품질이 높아져 후속 수정 요청을 줄일 수 있다면, 전체 작업 비용과 시간에서는 MOA가 유리할 수도 있다는 관점이 드러난다. [07:35]
- 예를 들어 단일 모델 결과가 한 번에 충분하지 않아 세 번의 follow-up이 필요하다면, MOA가 한 번에 제대로 끝났을 때 장기적으로 더 효율적일 수 있다. [07:45]
- 따라서 비교의 핵심은 1회 실행 비용이 아니라, 원하는 품질에 도달하기까지 필요한 전체 턴 수와 총비용이다. [08:00]
6. 테스트용 MOA preset 실행과 초기 비교 결과
- MOA 테스트용 preset은 test one이라는 이름으로 만들어진다. [09:36]
- aggregator는 baseline과 같은 New Portal GLM 모델로 맞춰, 단일 GLM 결과와 MOA 결과를 비교하기 쉬운 조건을 만든다. [09:51]
- reference model에는 Kimi K 2.6과 Minimax M3가 들어간다. [09:58]
- 이 조합은 GLM aggregator, Kimi, Minimax라는 세 개의 open model 계열 조합으로 구성된다. [10:13]
- 실험의 의도는 aggregator 자체를 바꾸기보다, reference model을 추가했을 때 결과물 품질이 얼마나 달라지는지 보는 데 있다. [10:28]
7. 오픈웨이트 MOA 결과물은 품질을 높였지만 시간 부담이 컸다
- GLM 오케스트레이터와 Kimi K2.6, MiniMax가 함께 작동한 MOA 결과는 단일 GLM baseline보다 나아진 측면이 있는 것으로 평가된다. [12:02]
- 비용 차이는 크게 벌어지지 않았지만, 실행 시간은 단일 모델 대비 거의 2~3배 길어진 것으로 나온다. [12:17]
- 이 결과는 MOA가 품질을 높일 가능성은 보여주지만, 속도 측면에서는 분명한 부담이 있음을 보여준다. [12:32]
- 모델 간 조율 방식이 아직 초기 단계일 가능성이 있고, 선택한 모델 조합이 최적이 아니었을 수도 있다는 한계가 드러난다. [12:47]
- 따라서 첫 번째 실험만으로 MOA가 항상 낫다고 결론 내리기는 어렵고, 조합과 작업 유형에 따라 결과가 달라질 수 있다. [13:02]
8. GPT 5.5 단일 기준선은 복잡한 애니메이션 대시보드를 안정적으로 만들었다
- 이후 비교는 GPT 5.5 단일 모델을 기준선으로 삼는 방식으로 전환된다. [14:31]
- 비교 대상은 GPT 5.5를 aggregator로 두고, Grok 계열 reference model을 붙인 MOA 조합이다. [14:46]
- GPT 5.5는 코딩 능력이 강한 모델로 다뤄지며, 복잡한 애니메이션이나 인터랙티브 대시보드 구현에서 안정적인 기준선 역할을 한다. [15:01]
- 반면 영상에서는 GPT 5.5가 개성 있는 스타일이나 감각적인 분위기 표현에서는 상대적으로 약할 수 있다고 평가한다. [15:16]
- Grok은 풍부한 감각, 분위기, 시각적 개성을 더할 수 있는 reference model 후보로 묶인다. [15:31]
9. GPT 5.5와 다중 Grok 조합은 더 빠른 실행과 강한 스타일 변화를 만들었다
- 두 번째 테스트에서는 OpenAI Codex GPT 5.5가 aggregator model로 사용된다. [16:56]
- reference model에는 Grok 4.3, Composer Fast, Grok Build가 들어간다. [17:11]
- 이 조합은 GPT 5.5의 구현 안정성에 Grok 계열의 스타일 제안과 시각적 감각을 더하려는 구성으로 해석할 수 있다. [17:26]
- 같은 프롬프트를 새 세션과 빈 폴더에서 실행해, 단일 GPT 5.5 결과와 MOA 결과를 비교할 조건을 맞춘다. [17:54]
- 실험 조건을 분리함으로써 이전 생성물이나 세션 맥락이 결과에 영향을 주지 않도록 하려는 의도가 드러난다. [18:09]
10. Grok 참조 모델은 시각적 개성을 더했고 MOA 실험 가치는 남았다
- Grok reference model이 더해진 결과물은 원본 GPT 5.5 단일 결과보다 덜 밋밋하고, 스타일 포인트가 더 강한 것으로 평가된다. [19:27]
- 시네마틱한 3D 효과와 시각적 분위기가 강화되면서, 단일 모델 결과와 다른 인상을 만든다. [19:42]
- 중앙 오브 주변을 도는 듯한 확대 효과와 깊이감은 단일 GPT 5.5 결과보다 더 입체적인 사용자 경험을 제공하는 요소로 나온다. [19:48]
- 결론적으로 MOA는 항상 비용과 시간을 줄이는 해법이라기보다, 모델 조합에 따라 품질과 스타일을 끌어올릴 수 있는 실험적 가치가 있는 접근으로 압축된다. [20:03]
🧾 결론
- MOA는 단순히 “모델을 여러 개 쓰면 무조건 좋아진다”는 방식이 아니라, aggregator와 reference model의 역할 분담이 결과 품질을 좌우하는 구조로 설명된다.
- 첫 번째 GLM 기반 실험에서는 MOA가 단일 모델보다 더 부드럽고 완성도 있는 게임 결과물을 만들었지만, 실행 시간이 2~3배 가까이 길어지는 단점이 나타났다.
- 두 번째 GPT 5.5와 Grok 조합에서는 단일 GPT 5.5보다 스타일과 입체감이 강화됐고, 속도 부담도 줄어드는 다른 양상이 확인됐다.
- 따라서 MOA의 가치는 특정 모델 조합, 과제 성격, 품질 목표, 후속 수정 턴을 얼마나 줄일 수 있는지에 따라 달라진다.
- 검증 필요: 영상에서 언급된 Hermes Bench 성능 수치와 각 모델 조합의 비용·속도 결과는 영상 내 실험 조건에 따른 것이므로, 일반화하려면 더 많은 반복 테스트와 독립 비교가 필요하다.
📈 투자·시사 포인트
- AI 에이전트 시장에서는 단일 최강 모델 경쟁뿐 아니라, 여러 모델을 조합해 역할별 강점을 끌어내는 orchestration 역량이 중요한 차별화 요소가 될 수 있다.
- MOA가 품질을 높이더라도 비용과 지연 시간이 늘어나면 실무 채택에는 제약이 생기므로, 모델 조합의 경제성과 속도 최적화가 핵심 과제로 남는다.
- 오픈웨이트 모델 조합만으로도 품질 개선 가능성이 보였다는 점은, 폐쇄형 frontier 모델 의존도를 낮추려는 사용자와 기업에게 의미 있는 신호다.
- GPT 5.5에 Grok 계열 reference model을 붙였을 때 스타일이 강화된 사례는, 기술 구현력과 창의적 표현력을 분리해 조합하는 방향의 가능성을 보여준다.
- 향후에는 “어떤 모델을 aggregator로 두고, 어떤 모델을 reference로 붙일 때 가장 효율적인가”가 AI 워크플로 설계와 비용 관리의 중요한 실험 주제가 될 가능성이 크다.
⚠️ 불확실하거나 확인이 필요한 부분
- Hermes Bench에서 Opus 4.8보다 8%, GPT 5.5보다 11% 높다는 수치는 영상 내 언급 기준이며, 평가 조건·벤치마크 구성·모델 버전은 별도 확인이 필요하다.
- GLM 단일 baseline과 MOA 비교는 반복 실험이 아닌 단일 실행 중심이라, 비용·시간·품질 차이를 일반화하기에는 근거가 제한적이다.
- 오픈웨이트 MOA 결과 개선이 Kimi K2.6, MiniMax, GLM 오케스트레이터 중 어느 모델의 기여 때문인지는 영상만으로 확정하기 어렵다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 동일 프롬프트를 단일 모델과 MOA 구성별로 최소 3회 이상 반복 실행해 평균 비용, 평균 시간, 실패율을 기록한다.
- 생성된 HTML 결과물을 스크린샷·영상·실행 로그로 저장하고, 렌더링 오류, 조작감, 애니메이션 완성도, 요구사항 충족 여부를 체크리스트로 비교한다.
- GLM 단일, GLM+Kimi, GLM+MiniMax, GLM+Kimi+MiniMax처럼 reference model 조합을 분리해 어떤 조합이 실제 개선에 기여하는지 확인한다.
- Hermes Agent의 현재 버전에서
/model, dashboard model settings, desktop app preset 설정 경로가 영상과 동일하게 동작하는지 확인한다.
❓ 열린 질문
- 어떤 reference model 조합이 코딩 품질, 시각 스타일, 실행 속도 사이에서 가장 좋은 균형을 만드는가?
- MOA가 단일 강력 모델보다 실제로 경제적인 경우는 “첫 결과물 품질 개선”이 “후속 수정 턴 감소”로 이어질 때뿐인가?
- aggregator model은 코딩 안정성이 강한 모델이 항상 유리한가, 아니면 과제 유형에 따라 창의적 모델이 aggregator가 되는 편이 더 나은가?