YouTubeZach Babiarz·2026년 5월 27일·0

Hermes Just Dropped /goal — And It Changes Everything

Quick Summary

Hermes /goal은 긴 멀티스텝 작업을 중간 확인 없이 끝까지 밀어붙이도록 설계된 기능으로, 자동화의 범위를 넓히지만 목표 설계와 비용 통제가 성패를 가른다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

Hermes Just Dropped /goal — And It Changes Everything 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Hermes Just Dropped /goal — And It Changes Everything 내용을 설명하는 본문 이미지

💡 한 줄 결론

Hermes /goal은 긴 멀티스텝 작업을 중간 확인 없이 끝까지 밀어붙이도록 설계된 기능으로, 자동화의 범위를 넓히지만 목표 설계와 비용 통제가 성패를 가른다.

📌 핵심 요점

  1. /goal은 사용자가 목표를 입력하면 judge model이 매 턴 완료 여부를 판단하고, 완료되지 않았다고 판정되면 작업을 계속 반복하는 장기 실행 구조다.
  2. pause, resume, status, clear 같은 제어 명령을 통해 긴 목표를 중단·재개·확인·종료할 수 있어, 실행 중 다른 작업을 병행하거나 흐름을 관리할 수 있다.
  3. 긴 작업은 반복 실행으로 토큰 비용이 커질 수 있으므로 저렴한 judge model, 적절한 turn budget, 구체적인 완료 기준이 중요하다.
  4. 영상에서는 웹앱을 React Native 기반 모바일 앱으로 전환하고, AI 코드 에디터 비교 리포트를 PDF로 생성하는 사례를 통해 /goal의 멀티스텝 처리 능력을 보여준다.
  5. 웹사이트 QA 리포트 사례에서는 사이트 방문, 화면 탐색, 스크린샷 촬영, 개선점 도출, PDF 보고서 생성까지 이어지는 자동 진단 흐름이 소개된다.

🧩 배경과 문제 정의

  • Hermes의 /goal은 에이전트에게 장기 목표를 맡겼을 때 중간중간 멈추거나 사용자 허가를 기다리는 기존 흐름을 줄이고, 목표가 끝났다고 판단될 때까지 작업을 계속 이어가도록 만든 기능이다.
  • 핵심 구조는 매 턴마다 judge model이 완료 여부를 판정하고, 아직 완료되지 않았다고 판단되면 에이전트가 다음 행동을 계속 수행하는 방식이다.
  • 이 구조는 코드 작성, 리서치, 문서 생성, 파일 저장, 전달처럼 여러 단계와 도구 호출이 이어지는 작업에 특히 적합하다.
  • 반대로 목표가 모호하거나 제한이 없으면 반복 실행으로 토큰 비용이 커지고 루프에 빠질 수 있으므로, 저렴한 judge model 설정, turn budget 제한, 구체적인 목표 작성이 중요한 운영 조건으로 제시된다.
  • 영상의 활용 사례는 웹앱을 모바일 앱으로 전환하는 작업, AI 코드 에디터 리서치 PDF 생성, 웹사이트 QA 리포트 작성처럼 장시간 자동 실행이 필요한 실전형 작업에 초점이 맞춰져 있다.
  • 검증 필요: 제공된 section-detail에는 영상 후반부 전체 결론이나 12:12 이후의 세부 발화가 충분히 포함되어 있지 않으므로, 12:12 이후 마무리 논지는 transcript 원문 확인 없이는 단정할 수 없다.

🕒 시간순 섹션별 상세정리

  1. Hermes /goal의 핵심 개념과 장기 작업 구조
  • Hermes는 OpenClaw와 비교해도 메인 에이전트로 선택할 만한 완성도가 높고, 새 기능 /goal은 긴 작업을 중간에 멈추지 않고 끝까지 밀어붙이는 기능으로 묶인다 [00:03]
  • /goal은 사용자가 목표를 입력하면 일반 에이전트처럼 일정 지점에서 허가를 요청하거나 다음 지시를 기다리지 않고, 완료될 때까지 계속 진행하는 방식으로 드러난다 [00:53]
  • 큰 목표가 실행되는 중에도 pause를 사용해 흐름을 멈출 수 있고, 그 사이 Hermes에게 다른 작업을 맡긴 뒤 원래 목표로 다시 돌아올 수 있다 [01:49]
  • goal resume은 중단 지점부터 이어가는 명령이고, goal status는 진행 상태 확인, goal clear는 목표 자체를 중단하는 제어 수단으로 드러난다 [02:10]
  1. 토큰 비용을 줄이는 세 가지 운영 원칙
  • 긴 작업은 반복 실행 때문에 토큰을 많이 쓸 수 있으므로, judge model을 Gemini, GPT Nano, DeepSeek 같은 저렴한 모델로 바꾸면 반복 판정 비용을 줄일 수 있다고 드러난다 [03:16]
  • turn 수를 무제한으로 두면 불명확한 목표나 이상 루프에서 계속 반복되며 큰 비용이 발생할 수 있고, 기본값은 20턴이지만 큰 작업에는 60~70턴처럼 조정할 수 있다고 제안된다 [03:57]
  • 첫 활용 사례는 웹앱을 모바일 앱으로 바꾸는 작업이며, 기존 앱은 얼굴을 스캔해 roast 또는 toast 결과를 만드는 roastertoast.party 형태의 간단한 앱으로 묶인다 [05:20]
  • 앱에는 wholesome mode와 savage mode가 있고, 사용자가 얼굴을 스캔하면 카메라 입력과 주변 맥락을 바탕으로 농담성 roast 문구가 생성되는 구조로 드러난다 [06:10]
  1. AI 코드 에디터 리서치와 PDF 보고서 자동 생성 사례
  • 두 번째 활용 사례는 AI 도구 리서치이며, 여러 사이트에서 다섯 개 도구를 조사해 가격, 기능, 한계, 비교 내용을 모으고 Telegram으로 PDF를 전달하는 작업이다 [08:35]
  • 결과 PDF는 과거 AI 출력물처럼 깨진 문서가 아니라, 전송 전에 품질과 레이아웃을 확인하는 추가 단계를 거쳐 깔끔한 형태로 완성됐다고 드러난다 [08:47]
  1. 비교 리포트에서 웹사이트 QA 리포트 활용 사례로 전환
  • Hermes는 깊이 있는 리서치와 비교 문서 작성을 수행했고, 사용자는 비교 자료나 분석 문서가 필요한 상황에서 이 결과물을 재활용할 수 있다고 압축된다 [10:11]
  • 세 번째 활용 사례는 Safari로 Rooster Toaster 웹사이트를 열고, Vision AI로 스크린샷을 찍은 뒤, 구조화된 품질 보증 리포트를 로컬에 저장하는 다단계 작업이다 [10:24]
  1. Hermes의 자동 탐색·PDF 생성 결과와 프롬프트 배포
  • Hermes는 목표를 받은 뒤 roosterteeth.party를 탐색하면서 브라우징, 클릭, 여러 화면 확인, 스크린샷 촬영을 진행하고, 작업 범위가 단순 캡처를 넘어 실제 사이트 점검으로 확장된다 [11:50]
  • 자동 점검 중 SEO 메타 태그와 성능 항목까지 검색되며, 약 4~5분 시점에 이미 깊은 진단 흐름으로 들어간다고 드러난다 [12:12]
  • 제공된 section-detail 기준으로 확인 가능한 마지막 구간은 자동 탐색과 QA 진단 흐름이며, 영상 전체 길이 14:33 중 12:12 이후의 결론·마무리 발화는 입력에 충분히 포함되어 있지 않아 추가 transcript 확인이 필요하다 [12:22]
  1. QA PDF 완성 결과와 클라이언트 제안 활용
  • Hermes의 웹사이트 QA 작업은 총 7분 만에 완료됐고, 몇 가지 수정 권장 사항과 함께 PDF 리포트가 생성된다 [12:27]
  • 생성된 PDF는 앞선 사례와 비슷한 리포트 스타일을 갖추고 있으며, 발표자는 내용을 훑어보며 결과물을 확인한다 [12:39]
  • 리포트에는 스크린샷까지 포함되어 있고 전체적으로 깔끔해 보여, 클라이언트에게 웹사이트나 앱 진단 보고서로 전달할 수 있는 형태라고 평가된다 [12:56]
  • 사용자는 이런 보고서를 바탕으로 개선 작업 가격을 제안하거나, 리포트 자체를 판매하는 방식으로 활용할 수 있다고 보여준다 [13:04]
  1. /goal 기능의 확장성과 무료 프롬프트 배포로 마무리
  • 발표자는 이번 사례들이 Hermes의 /goal 기능으로 할 수 있는 기본적인 작업 예시이며, 실제로는 더 길고 복잡한 다단계 작업도 가능하다고 정리한다 [13:22]
  • 이번 영상의 목적은 빠른 성공 사례를 보여주고, 시청자가 이 기능을 어떻게 활용할지 아이디어와 영감을 얻도록 돕는 데 있다고 드러낸다 [13:32]
  • 같은 결과를 만들 수 있는 정확한 프롬프트는 agentcommandkit.com의 Hermes goal power pack에서 무료로 제공되며, 모바일 앱 변환과 리포트 생성 프롬프트가 포함된다 [13:46]
  • 메모리, 리드 생성, SEO 서브 에이전트 등 다른 프롬프트와 관련 영상도 계속 추가하고 있으니 활용해 보라고 안내하며 영상을 마무리한다 [14:04]

🧾 결론

  • Hermes /goal의 핵심은 단일 명령으로 여러 단계의 작업을 연결하고, 완료될 때까지 에이전트가 스스로 반복하도록 만드는 데 있다.
  • 단순한 챗봇 응답보다 코드 작성, 리서치, 비교 분석, 문서화, 보고서 전달처럼 도구 호출이 많은 작업에서 효용이 크다.
  • 다만 목표가 모호하거나 turn budget이 과도하면 불필요한 반복과 비용 증가가 발생할 수 있으므로, “무엇을 완료로 볼 것인가”를 프롬프트에 명확히 적어야 한다.
  • 영상의 사례들은 /goal이 웹앱 전환, AI 도구 리서치, 웹사이트 QA 리포트처럼 실무형 자동화에 적용될 수 있음을 보여준다.
  • 검증이 필요한 부분은 실제 각 환경에서의 안정성, 모바일 앱 변환 결과의 완성도, 생성 PDF의 품질, 장시간 실행 시 비용과 오류율이다.

📈 투자·시사 포인트

  • AI 에이전트 시장은 단순 질의응답보다 장기 목표 수행, 멀티툴 오케스트레이션, 자동 리포트 생성처럼 “끝까지 처리하는 워크플로” 중심으로 이동하고 있다.
  • /goal 같은 기능은 개인 개발자나 소규모 팀이 앱 변환, 리서치 보고서, 웹사이트 진단 자료를 빠르게 만들어 서비스화할 가능성을 높인다.
  • 비용 관리가 핵심 경쟁 요소가 될 수 있다. judge model을 저렴하게 구성하고 turn budget을 제어하는 기능은 장기 실행 에이전트의 실사용성을 좌우한다.
  • 웹사이트 QA 리포트나 AI 도구 비교 리포트처럼 결과물이 바로 고객 제안서나 리드 마그넷으로 전환될 수 있는 분야는 수익화 실험에 적합하다.
  • 반대로 자동 실행 기능이 강해질수록 품질 검수, hallucination 방지, 실제 작동 여부 확인 같은 후속 검증 프로세스의 중요성도 커진다.

⚠️ 불확실하거나 확인이 필요한 부분

  • /goal이 “완료될 때까지 계속 진행한다”는 설명은 영상 내 시연과 발표자의 설명 기준이며, 실제 환경에서는 설정된 turn budget, 도구 권한, 모델 응답 품질, 실패 처리 방식에 따라 중단될 수 있다.
  • judge model을 Gemini, GPT Nano, DeepSeek 등 저렴한 모델로 바꾸면 비용을 줄일 수 있다는 주장은 운영 방향으로 제시되지만, 각 모델별 실제 비용 절감 폭과 판정 품질 차이는 별도 테스트가 필요하다.
  • 웹앱을 React Native 기반 모바일 앱으로 전환한 결과가 “업로드 가능한 수준”이라는 평가는 영상 속 사례 기준이며, 실제 App Store·Google Play 제출 요건, 카메라 권한, 개인정보 처리, 네이티브 기능 안정성 검증은 별도로 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • /goal을 사용할 때는 목표 문장을 “완료 조건”, “산출물 형식”, “검증 방식”까지 포함해 구체적으로 작성한다.
  • 긴 작업을 실행하기 전에 turn budget을 설정하고, 무제한 반복이나 불명확한 종료 조건으로 인한 비용 증가를 방지한다.
  • judge model을 저렴한 모델로 바꿀 경우, 비용뿐 아니라 완료 판정 품질이 충분한지 짧은 테스트 작업으로 먼저 확인한다.
  • 모바일 앱 변환, 리서치 보고서, 웹사이트 QA처럼 멀티스텝 작업은 /goal 실행 후 결과물 파일, 화면 동작, 링크, 보고서 내용을 직접 검수한다.

❓ 열린 질문

  • /goal의 judge model은 어떤 기준으로 “완료”를 판정하며, 사용자가 그 판정 기준을 세밀하게 조정할 수 있는가?
  • 장시간 /goal 실행 중 도구 호출 실패, 브라우저 오류, 파일 생성 실패가 발생하면 Hermes는 자동 복구를 시도하는가, 아니면 사용자가 개입해야 하는가?
  • turn budget을 20턴, 60턴, 70턴으로 조정할 때 작업 유형별 권장 기준은 무엇인가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.