Hermes Agent Update v0.18 is HUGE! (Judgment Release)
Quick Summary
Hermes Agent Update v0.18, 즉 Judgment Release의 핵심은 새 기능 과시보다 다중 모델 판단, 검증 증거, 운영 안정성을 통해 에이전트 신뢰도를 높이는 데 있다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Hermes Agent Update v0.18, 즉 Judgment Release의 핵심은 새 기능 과시보다 다중 모델 판단, 검증 증거, 운영 안정성을 통해 에이전트 신뢰도를 높이는 데 있다.
📌 핵심 요점
- v0.18은 “Judgment Release”라는 이름처럼 판단·추론·자기개선을 중심에 둔 업데이트이며, 12일 스프린트 동안 P0·P1 이슈와 약 700개의 고우선순위 이슈·PR을 정리한 점이 강조된다.
- Mixture of Agents는 여러 모델이 같은 문제를 독립적으로 검토하고 aggregator가 최종 답을 합성하는 구조로, 단일 모델의 자기확증 편향과 환각 위험을 줄이는 장치로 소개된다.
/goal의 completion contract와 테스트·린터·빌드 기반 검증은 “될 것 같다”는 주장보다 exit code, 로그, 생성 파일 같은 구체적 증거를 남기는 방향으로 에이전트 사용 방식을 바꾼다./learn,/journey, background sub-agent, desktop app 개선은 Hermes를 단순 채팅 도구가 아니라 기억·스킬·프로젝트 흐름을 관리하는 장기 작업 환경으로 확장한다.- gateway scale-to-zero, drain 조율, Vertex AI 직접 지원, 보안 취약 경로 차단은 self-hosting, VPS, 팀 인스턴스, 실제 credential 사용 환경에서 비용·배포·보안 리스크를 낮추는 변화로 정리된다.
🧩 배경과 문제 정의
- Hermes Agent v0.18은 “Judgment Release”라는 이름처럼, 단순한 기능 추가보다 에이전트가 낸 결과를 더 믿을 수 있게 만드는 신뢰성·판단·검증 가능성에 초점을 둔 업데이트다.
- 12일 스프린트 동안 P0·P1 이슈와 약 700개의 고우선순위 이슈·PR이 정리되면서, 일상적인 에이전트 워크플로를 안정적으로 굴리기 위한 기반 정비가 핵심 문제로 제시된다.
- 단일 모델에만 의존하면 같은 컨텍스트와 논리 흐름 안에서 자기 확신이 강화될 수 있고, 자체 팩트체크를 시켜도 편향이나 환각 위험이 남을 수 있다.
- 이 때문에 여러 모델의 독립적 판단을 모아 최종 답을 구성하는 방식, 검증 증거를 남기는 방식, 기억과 학습 이력을 관리하는 방식이 중요한 개선 지점으로 다뤄진다.
- 실제 자격 증명, VPS, 팀 인스턴스, 프로덕션 환경에서 Hermes를 운영하는 사용자에게는 신뢰성뿐 아니라 보안, 비용, 배포 안정성도 직접적인 운영 리스크로 연결된다.
🕒 시간순 섹션별 상세정리
1. 신뢰성 정리와 판단 중심 릴리스의 출발점
- v0.18은 “Judgment Release”로 소개되며, 이번 릴리스의 중심이 새 기능의 양보다 판단 품질과 신뢰성 개선에 있음을 강조한다 [00:43]
- P0·P1 이슈를 모두 해소했고, 약 700개의 고우선순위 이슈와 PR이 12일 스프린트 동안 닫혔다는 점이 업데이트의 규모를 보여주는 근거로 드러난다 [00:58]
- 발표자는 Hermes가 실제 업무 흐름에서 쓰이는 도구인 만큼, 기능을 늘리기 전에 기반 안정성을 먼저 다지는 일이 중요하다고 보여준다 [01:13]
- 에이전트가 코딩, 검토, 운영 보조처럼 반복적이고 중요한 작업에 들어갈수록, 단순 응답 성능보다 안정적으로 믿고 맡길 수 있는 구조가 더 중요해진다는 문제의식이 깔려 있다 [01:18]
2. Mixture of Agents와 단일 모델 편향 완화
- Mixture of Agents는 여러 모델이 같은 문제를 각각 독립적으로 추론한 뒤, aggregator가 그 결과를 종합해 최종 답을 만드는 방식으로 드러난다 [01:20]
- Hermes 대시보드의 모델 설정에서 이 구성을 preset처럼 다룰 수 있어, 사용자가 단일 모델 응답이 아니라 여러 모델 기반의 판단 구조를 선택할 수 있다는 점이 중요하다 [01:35]
- 단일 모델은 같은 컨텍스트 안에서 앞선 논리를 이어가기 때문에, 자기 답을 다시 검토하라고 해도 기존 판단을 유지하는 편향이 생길 수 있다 [01:47]
- 그래서 별도의 에이전트나 다른 모델이 독립적으로 검토하지 않은 결과는 신뢰성이 떨어질 수 있으며, 이번 업데이트는 이런 구조적 한계를 줄이려는 방향으로 묶인다 [02:02]
3. 학습·기억·서브에이전트·데스크톱 프로젝트 흐름
/learn은 문서 링크, URL, PDF 등을 ingest해 skill로 바꾸는 기능으로 설명되며, 외부 지식이나 문서를 Hermes 작업 흐름 안으로 가져오는 진입점 역할을 한다 [05:38]- 생성된 skill은 곧바로 호출해 쓰는 것뿐 아니라, PRD처럼 코딩 에이전트에 넘겨 추가로 다듬거나 프로젝트 작업의 기반 자료로 활용할 수 있다 [05:53]
/journey는 skill, memory, correction, preference 같은 Hermes Agent의 학습 타임라인을 보여주는 기능으로 묶인다 [06:04]- 사용자는 이 타임라인을 통해 잘못 저장된 항목을 지우거나, 시간이 지나며 어긋난 memory와 preference를 편집할 수 있어 에이전트의 장기 사용 품질을 관리할 수 있다 [06:19]
4. 운영 비용 절감과 로컬 프롬프트 작성 개선
- gateway는 idle 상태에서 dormant로 내려가도록 바뀌어, 계속 켜져 있는 인프라의 비용 부담을 줄이는 방향으로 드러난다 [07:58]
- 재시작이나 업데이트 전에는 drain을 조율해 진행 중인 대화를 끊지 않도록 설계되어, self-hosting, VPS, 팀 인스턴스 운영에서 안정성이 높아진다 [08:13]
- gateway scale-to-zero는 사용하지 않을 때 비용을 낮추면서도, 다시 필요할 때 운영 흐름을 복구할 수 있게 해주는 개선으로 드러난다 [08:18]
- 특히 새벽 시간대 배포나 서비스 재시작처럼 사용자 대화가 중단되면 곤란한 상황에서, 안전한 deploy와 운영 안정성의 체감 가치가 커진다 [08:33]
5. 여러 플레이어 기반 작업 구조와 환각 리스크 감소
- 여러 플레이어가 함께 작업을 처리하면 하나의 모델 응답에만 의존하는 것보다 환각 가능성을 줄일 수 있다는 논지가 드러난다 [12:00]
- 서로 다른 작업 보조 주체가 판단과 검토에 참여하면, 결과를 교차 확인할 여지가 커지고 단일 응답의 오류를 그대로 받아들이는 위험이 낮아진다 [12:15]
- 발표자는 이번 업데이트의 실질적 가치가 화려한 기능 추가보다 신뢰도 개선과 과업 수행 안정성에 있다고 정리한다 [12:30]
- Hermes를 실제 업무에 쓰는 사용자에게는 이러한 다중 판단 구조가 에이전트 결과를 더 검증 가능하게 만드는 핵심 변화로 연결된다 [12:45]
6. 업데이트 권고와 후속 콘텐츠 안내
- 마무리에서는 Hermes Agent v0.18 업데이트를 지금 적용하라는 권고가 나오며, 개선된 신뢰성과 운영 안정성을 바로 활용하는 행동이 중요하다고 압축된다 [13:00]
- 발표자는 이번 업데이트가 에이전트 워크플로의 기반을 단단히 하는 릴리스라는 점을 다시 강조하며, 사용자에게 실제 적용을 독려한다 [13:15]
- 영상이 도움이 됐다면 좋아요와 구독을 요청하는 일반적인 마무리 안내가 계속된다 [13:30]
- 같은 날 오전 공개된 Claude Fable 5 관련 최신 영상도 후속 참고 대상으로 언급되며, 관련 AI 에이전트·모델 업데이트 흐름을 계속 살펴보라는 안내로 끝난다 [13:45]
🧾 결론
- 이번 업데이트의 핵심 가치는 기능 수 증가보다 “에이전트가 스스로 말한 결과를 어떻게 검증하고, 여러 관점으로 판단하며, 운영 중 안전하게 유지되는가”에 있다.
- Mixture of Agents와 verification audit trail은 복잡한 작업에서 단일 모델 답변을 그대로 믿는 위험을 줄이고, 사용자가 모델 간 합의·충돌·최종 판단 과정을 더 투명하게 확인하게 만든다.
/goal,/learn,/journey는 Hermes를 일회성 프롬프트 실행기에서 목표 계약, 지식 흡수, 기억 점검을 수행하는 작업 시스템으로 발전시키는 구성 요소다.- 운영 측면에서는 gateway scale-to-zero와 안전한 deploy 흐름, Vertex AI 인증 개선, MCP config persistence attack 차단 등이 실제 프로덕션·팀 환경에서 더 중요하게 작용한다.
- 검증 필요: 영상의 설명에 나온 P0·P1 전체 해소, 약 700개 이슈·PR 처리 규모, 보안 수정의 정확한 범위는 공식 릴리스 노트나 저장소 변경 내역으로 별도 확인하는 것이 바람직하다.
📈 투자·시사 포인트
- AI 에이전트 시장의 경쟁축은 단순 모델 성능이나 UI 편의성만이 아니라, 다중 모델 검토, 증거 기반 완료 판정, 장기 기억 관리 같은 “신뢰 인프라”로 이동하고 있다.
- 기업·팀 도입 관점에서는 실제 credential, VPS, self-hosted gateway, GCP 인증을 다루는 환경에서 보안과 운영비 절감 기능이 채택 여부를 좌우할 가능성이 크다.
- MOA 방식은 복잡한 의사결정이나 장기 작업에서 품질을 높일 수 있지만, 단순 작업에는 비용과 지연이 과할 수 있으므로 작업 난이도별로 사용 기준을 나누는 전략이 필요하다.
- Vertex AI 직접 지원과 짧은 수명 OAuth token 흐름은 정적 API key 노출을 줄이는 방향이라, GCP 기반 Gemini 엔터프라이즈 워크로드에는 긍정적 신호로 해석할 수 있다.
- 검증 중심 에이전트가 확산될수록 테스트 로그, exit code, audit trail, 자동화된 빌드·린트 결과를 잘 남기는 프로젝트가 AI 에이전트 활용 효율에서 더 유리해질 수 있다.
⚠️ 불확실하거나 확인이 필요한 부분
- 영상에서는 Hermes Agent v0.18이 12일 스프린트 동안 P0·P1 이슈와 약 700개의 이슈·PR을 정리했다고 설명하지만, 정확한 수치와 범위는 공식 릴리스 노트나 GitHub 변경 내역으로 별도 확인이 필요하다.
- Mixture of Agents가 환각을 줄이고 판단 품질을 높인다는 방향은 영상의 핵심 주장이나, 실제 개선 폭은 작업 유형, reference model 구성, aggregator 선택, 비용 제한에 따라 달라질 수 있다.
- OpenRouter 기본 설정만으로 MOA가 동작하지 않을 수 있다는 언급은 환경 의존적이므로, 각자의 API 키·provider 설정·preset 구성을 실제로 점검해야 한다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- Hermes Agent v0.18 릴리스 노트와 현재 설치 버전을 확인하고, 운영 중인 환경에 업데이트를 적용할지 결정한다.
- MOA preset을 구성해 reference model과 aggregator model 조합을 테스트하고, 비용·속도·품질 차이를 비교한다.
- 중요한 작업에는
/goalcompletion contract를 사용해 성공 조건을 테스트 로그, exit code, 생성 파일 등 검증 가능한 증거로 정의한다. -
/journey를 열어 오래된 memory, drift된 preference, 불필요한 skill 항목을 점검하고 정리한다.
❓ 열린 질문
- 어떤 작업에서는 MOA가 실질적인 품질 향상을 만들고, 어떤 단순 작업에서는 비용만 늘리는가?
- aggregator model은 코딩 성능, 도구 호출 안정성, 비용 중 무엇을 우선 기준으로 선택해야 하는가?
/learn으로 생성한 skill을 바로 쓰기보다 PRD처럼 추가 정제하는 기준은 무엇이 적절한가?