YouTubeSuperbash (BoxminingAI)·2026년 7월 2일·0

Hermes Agent Update v0.18 is HUGE! (Judgment Release)

Quick Summary

Hermes Agent Update v0.18, 즉 Judgment Release의 핵심은 새 기능 과시보다 다중 모델 판단, 검증 증거, 운영 안정성을 통해 에이전트 신뢰도를 높이는 데 있다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

Hermes Agent Update v0.18 is HUGE! (Judgment Release) 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Hermes Agent Update v0.18 is HUGE! (Judgment Release) 내용을 설명하는 본문 이미지

💡 한 줄 결론

Hermes Agent Update v0.18, 즉 Judgment Release의 핵심은 새 기능 과시보다 다중 모델 판단, 검증 증거, 운영 안정성을 통해 에이전트 신뢰도를 높이는 데 있다.

📌 핵심 요점

  1. v0.18은 “Judgment Release”라는 이름처럼 판단·추론·자기개선을 중심에 둔 업데이트이며, 12일 스프린트 동안 P0·P1 이슈와 약 700개의 고우선순위 이슈·PR을 정리한 점이 강조된다.
  2. Mixture of Agents는 여러 모델이 같은 문제를 독립적으로 검토하고 aggregator가 최종 답을 합성하는 구조로, 단일 모델의 자기확증 편향과 환각 위험을 줄이는 장치로 소개된다.
  3. /goal의 completion contract와 테스트·린터·빌드 기반 검증은 “될 것 같다”는 주장보다 exit code, 로그, 생성 파일 같은 구체적 증거를 남기는 방향으로 에이전트 사용 방식을 바꾼다.
  4. /learn, /journey, background sub-agent, desktop app 개선은 Hermes를 단순 채팅 도구가 아니라 기억·스킬·프로젝트 흐름을 관리하는 장기 작업 환경으로 확장한다.
  5. gateway scale-to-zero, drain 조율, Vertex AI 직접 지원, 보안 취약 경로 차단은 self-hosting, VPS, 팀 인스턴스, 실제 credential 사용 환경에서 비용·배포·보안 리스크를 낮추는 변화로 정리된다.

🧩 배경과 문제 정의

  • Hermes Agent v0.18은 “Judgment Release”라는 이름처럼, 단순한 기능 추가보다 에이전트가 낸 결과를 더 믿을 수 있게 만드는 신뢰성·판단·검증 가능성에 초점을 둔 업데이트다.
  • 12일 스프린트 동안 P0·P1 이슈와 약 700개의 고우선순위 이슈·PR이 정리되면서, 일상적인 에이전트 워크플로를 안정적으로 굴리기 위한 기반 정비가 핵심 문제로 제시된다.
  • 단일 모델에만 의존하면 같은 컨텍스트와 논리 흐름 안에서 자기 확신이 강화될 수 있고, 자체 팩트체크를 시켜도 편향이나 환각 위험이 남을 수 있다.
  • 이 때문에 여러 모델의 독립적 판단을 모아 최종 답을 구성하는 방식, 검증 증거를 남기는 방식, 기억과 학습 이력을 관리하는 방식이 중요한 개선 지점으로 다뤄진다.
  • 실제 자격 증명, VPS, 팀 인스턴스, 프로덕션 환경에서 Hermes를 운영하는 사용자에게는 신뢰성뿐 아니라 보안, 비용, 배포 안정성도 직접적인 운영 리스크로 연결된다.

🕒 시간순 섹션별 상세정리

1. 신뢰성 정리와 판단 중심 릴리스의 출발점

  • v0.18은 “Judgment Release”로 소개되며, 이번 릴리스의 중심이 새 기능의 양보다 판단 품질과 신뢰성 개선에 있음을 강조한다 [00:43]
  • P0·P1 이슈를 모두 해소했고, 약 700개의 고우선순위 이슈와 PR이 12일 스프린트 동안 닫혔다는 점이 업데이트의 규모를 보여주는 근거로 드러난다 [00:58]
  • 발표자는 Hermes가 실제 업무 흐름에서 쓰이는 도구인 만큼, 기능을 늘리기 전에 기반 안정성을 먼저 다지는 일이 중요하다고 보여준다 [01:13]
  • 에이전트가 코딩, 검토, 운영 보조처럼 반복적이고 중요한 작업에 들어갈수록, 단순 응답 성능보다 안정적으로 믿고 맡길 수 있는 구조가 더 중요해진다는 문제의식이 깔려 있다 [01:18]

2. Mixture of Agents와 단일 모델 편향 완화

  • Mixture of Agents는 여러 모델이 같은 문제를 각각 독립적으로 추론한 뒤, aggregator가 그 결과를 종합해 최종 답을 만드는 방식으로 드러난다 [01:20]
  • Hermes 대시보드의 모델 설정에서 이 구성을 preset처럼 다룰 수 있어, 사용자가 단일 모델 응답이 아니라 여러 모델 기반의 판단 구조를 선택할 수 있다는 점이 중요하다 [01:35]
  • 단일 모델은 같은 컨텍스트 안에서 앞선 논리를 이어가기 때문에, 자기 답을 다시 검토하라고 해도 기존 판단을 유지하는 편향이 생길 수 있다 [01:47]
  • 그래서 별도의 에이전트나 다른 모델이 독립적으로 검토하지 않은 결과는 신뢰성이 떨어질 수 있으며, 이번 업데이트는 이런 구조적 한계를 줄이려는 방향으로 묶인다 [02:02]

3. 학습·기억·서브에이전트·데스크톱 프로젝트 흐름

  • /learn은 문서 링크, URL, PDF 등을 ingest해 skill로 바꾸는 기능으로 설명되며, 외부 지식이나 문서를 Hermes 작업 흐름 안으로 가져오는 진입점 역할을 한다 [05:38]
  • 생성된 skill은 곧바로 호출해 쓰는 것뿐 아니라, PRD처럼 코딩 에이전트에 넘겨 추가로 다듬거나 프로젝트 작업의 기반 자료로 활용할 수 있다 [05:53]
  • /journey는 skill, memory, correction, preference 같은 Hermes Agent의 학습 타임라인을 보여주는 기능으로 묶인다 [06:04]
  • 사용자는 이 타임라인을 통해 잘못 저장된 항목을 지우거나, 시간이 지나며 어긋난 memory와 preference를 편집할 수 있어 에이전트의 장기 사용 품질을 관리할 수 있다 [06:19]

4. 운영 비용 절감과 로컬 프롬프트 작성 개선

  • gateway는 idle 상태에서 dormant로 내려가도록 바뀌어, 계속 켜져 있는 인프라의 비용 부담을 줄이는 방향으로 드러난다 [07:58]
  • 재시작이나 업데이트 전에는 drain을 조율해 진행 중인 대화를 끊지 않도록 설계되어, self-hosting, VPS, 팀 인스턴스 운영에서 안정성이 높아진다 [08:13]
  • gateway scale-to-zero는 사용하지 않을 때 비용을 낮추면서도, 다시 필요할 때 운영 흐름을 복구할 수 있게 해주는 개선으로 드러난다 [08:18]
  • 특히 새벽 시간대 배포나 서비스 재시작처럼 사용자 대화가 중단되면 곤란한 상황에서, 안전한 deploy와 운영 안정성의 체감 가치가 커진다 [08:33]

5. 여러 플레이어 기반 작업 구조와 환각 리스크 감소

  • 여러 플레이어가 함께 작업을 처리하면 하나의 모델 응답에만 의존하는 것보다 환각 가능성을 줄일 수 있다는 논지가 드러난다 [12:00]
  • 서로 다른 작업 보조 주체가 판단과 검토에 참여하면, 결과를 교차 확인할 여지가 커지고 단일 응답의 오류를 그대로 받아들이는 위험이 낮아진다 [12:15]
  • 발표자는 이번 업데이트의 실질적 가치가 화려한 기능 추가보다 신뢰도 개선과 과업 수행 안정성에 있다고 정리한다 [12:30]
  • Hermes를 실제 업무에 쓰는 사용자에게는 이러한 다중 판단 구조가 에이전트 결과를 더 검증 가능하게 만드는 핵심 변화로 연결된다 [12:45]

6. 업데이트 권고와 후속 콘텐츠 안내

  • 마무리에서는 Hermes Agent v0.18 업데이트를 지금 적용하라는 권고가 나오며, 개선된 신뢰성과 운영 안정성을 바로 활용하는 행동이 중요하다고 압축된다 [13:00]
  • 발표자는 이번 업데이트가 에이전트 워크플로의 기반을 단단히 하는 릴리스라는 점을 다시 강조하며, 사용자에게 실제 적용을 독려한다 [13:15]
  • 영상이 도움이 됐다면 좋아요와 구독을 요청하는 일반적인 마무리 안내가 계속된다 [13:30]
  • 같은 날 오전 공개된 Claude Fable 5 관련 최신 영상도 후속 참고 대상으로 언급되며, 관련 AI 에이전트·모델 업데이트 흐름을 계속 살펴보라는 안내로 끝난다 [13:45]

🧾 결론

  • 이번 업데이트의 핵심 가치는 기능 수 증가보다 “에이전트가 스스로 말한 결과를 어떻게 검증하고, 여러 관점으로 판단하며, 운영 중 안전하게 유지되는가”에 있다.
  • Mixture of Agents와 verification audit trail은 복잡한 작업에서 단일 모델 답변을 그대로 믿는 위험을 줄이고, 사용자가 모델 간 합의·충돌·최종 판단 과정을 더 투명하게 확인하게 만든다.
  • /goal, /learn, /journey는 Hermes를 일회성 프롬프트 실행기에서 목표 계약, 지식 흡수, 기억 점검을 수행하는 작업 시스템으로 발전시키는 구성 요소다.
  • 운영 측면에서는 gateway scale-to-zero와 안전한 deploy 흐름, Vertex AI 인증 개선, MCP config persistence attack 차단 등이 실제 프로덕션·팀 환경에서 더 중요하게 작용한다.
  • 검증 필요: 영상의 설명에 나온 P0·P1 전체 해소, 약 700개 이슈·PR 처리 규모, 보안 수정의 정확한 범위는 공식 릴리스 노트나 저장소 변경 내역으로 별도 확인하는 것이 바람직하다.

📈 투자·시사 포인트

  • AI 에이전트 시장의 경쟁축은 단순 모델 성능이나 UI 편의성만이 아니라, 다중 모델 검토, 증거 기반 완료 판정, 장기 기억 관리 같은 “신뢰 인프라”로 이동하고 있다.
  • 기업·팀 도입 관점에서는 실제 credential, VPS, self-hosted gateway, GCP 인증을 다루는 환경에서 보안과 운영비 절감 기능이 채택 여부를 좌우할 가능성이 크다.
  • MOA 방식은 복잡한 의사결정이나 장기 작업에서 품질을 높일 수 있지만, 단순 작업에는 비용과 지연이 과할 수 있으므로 작업 난이도별로 사용 기준을 나누는 전략이 필요하다.
  • Vertex AI 직접 지원과 짧은 수명 OAuth token 흐름은 정적 API key 노출을 줄이는 방향이라, GCP 기반 Gemini 엔터프라이즈 워크로드에는 긍정적 신호로 해석할 수 있다.
  • 검증 중심 에이전트가 확산될수록 테스트 로그, exit code, audit trail, 자동화된 빌드·린트 결과를 잘 남기는 프로젝트가 AI 에이전트 활용 효율에서 더 유리해질 수 있다.

⚠️ 불확실하거나 확인이 필요한 부분

  • 영상에서는 Hermes Agent v0.18이 12일 스프린트 동안 P0·P1 이슈와 약 700개의 이슈·PR을 정리했다고 설명하지만, 정확한 수치와 범위는 공식 릴리스 노트나 GitHub 변경 내역으로 별도 확인이 필요하다.
  • Mixture of Agents가 환각을 줄이고 판단 품질을 높인다는 방향은 영상의 핵심 주장이나, 실제 개선 폭은 작업 유형, reference model 구성, aggregator 선택, 비용 제한에 따라 달라질 수 있다.
  • OpenRouter 기본 설정만으로 MOA가 동작하지 않을 수 있다는 언급은 환경 의존적이므로, 각자의 API 키·provider 설정·preset 구성을 실제로 점검해야 한다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • Hermes Agent v0.18 릴리스 노트와 현재 설치 버전을 확인하고, 운영 중인 환경에 업데이트를 적용할지 결정한다.
  • MOA preset을 구성해 reference model과 aggregator model 조합을 테스트하고, 비용·속도·품질 차이를 비교한다.
  • 중요한 작업에는 /goal completion contract를 사용해 성공 조건을 테스트 로그, exit code, 생성 파일 등 검증 가능한 증거로 정의한다.
  • /journey를 열어 오래된 memory, drift된 preference, 불필요한 skill 항목을 점검하고 정리한다.

❓ 열린 질문

  • 어떤 작업에서는 MOA가 실질적인 품질 향상을 만들고, 어떤 단순 작업에서는 비용만 늘리는가?
  • aggregator model은 코딩 성능, 도구 호출 안정성, 비용 중 무엇을 우선 기준으로 선택해야 하는가?
  • /learn으로 생성한 skill을 바로 쓰기보다 PRD처럼 추가 정제하는 기준은 무엇이 적절한가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.