YouTube메이커 에반·2026년 6월 7일·0

쓸수록 똑똑해지는 AI 에이전트, 헤르메스 완벽 정리

Quick Summary

쓸수록 똑똑해지는 AI 에이전트 헤르메스의 핵심은 모델 재학습이 아니라, 반복 작업의 절차·주의점·검증법을 사람이 읽을 수 있는 스킬로 축적해 다음 작업의 실패를 줄이는 구조입니다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

쓸수록 똑똑해지는 AI 에이전트, 헤르메스 완벽 정리 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

쓸수록 똑똑해지는 AI 에이전트, 헤르메스 완벽 정리 내용을 설명하는 본문 이미지

💡 한 줄 결론

쓸수록 똑똑해지는 AI 에이전트 헤르메스의 핵심은 모델 재학습이 아니라, 반복 작업의 절차·주의점·검증법을 사람이 읽을 수 있는 스킬로 축적해 다음 작업의 실패를 줄이는 구조입니다.

📌 핵심 요점

  1. 헤르메스는 대화가 끝나면 절차를 잊는 일반 에이전트의 한계를, 작업 방법을 스킬 파일에 남기는 방식으로 보완한다.
  2. 스킬은 AI 내부의 불투명한 숫자 덩어리가 아니라 사람이 직접 열어 보고 수정할 수 있는 글 형태의 설명서입니다.
  3. “똑똑해진다”는 변화는 새로운 지식을 막연히 학습한다는 뜻보다, 과거의 실패 지점·주의점·확인 방법이 누적되어 같은 실수를 줄인다는 뜻에 가깝습니다.
  4. 스킬 개선은 작업 후 자동 복습으로 조금씩 쌓는 방식과, 사람이 시작해 여러 버전을 시험하고 승인하는 대청소 방식으로 나뉩니다.
  5. 안전성은 분신의 권한 제한, 복제 차단, 숨겨둔 시험 문제, 다섯 관문, 사람 승인 같은 장치를 통해 확보되도록 설계되어 있다.

🧩 배경과 문제 정의

  • 이 영상은 AI 에이전트가 대화가 끝난 뒤 이전 작업에서 배운 절차를 잊어버리는 문제에서 출발한다.
  • 사용자는 비슷한 일을 반복할 때마다 같은 방법, 주의점, 검증 절차를 다시 설명해야 하고, 이로 인해 에이전트 사용 경험이 누적되지 않는 비효율이 생긴다.
  • 헤르메스가 개선하려는 대상은 AI 모델의 내부 두뇌 자체가 아니라, 사람이 읽고 고칠 수 있는 스킬 파일이다.
  • 스킬 파일에는 특정 작업을 처리하는 절차, 실수하기 쉬운 지점, 검증 방법이 기록되고, 다음 작업에서 다시 불러와 활용된다.
  • 따라서 “쓸수록 똑똑해진다”는 말은 모델이 자동으로 막연히 학습한다는 뜻이 아니라, 실패와 해결 과정이 스킬에 남아 같은 실수를 줄이는 구조를 뜻한다.
  • 영상은 헤르메스의 스킬이 무엇인지, 스킬이 어떻게 쌓이고 개선되는지, 자동 복습과 사람이 주도하는 대청소 방식이 어떤 차이를 갖는지 설명한다.
  • 또한 스킬 개선이 안전하게 작동하려면 비용 관리, 권한 제한, 정답지와 채점 기준 같은 장치가 필요하다는 점을 함께 다룬다.
  • 제공된 section-detail 기준으로는 14:31 이후의 세부 마무리 발언은 포함되어 있지 않으므로, 영상의 마지막 문장이나 최종 클로징 표현은 원문 transcript 확인이 필요하다.

🕒 시간순 섹션별 상세정리

1. 반복 설명 문제와 스킬 중심 개선 구조

  • 일반적인 AI 에이전트는 대화가 끝나면 이전 작업의 맥락과 절차를 잊는 경우가 많고, 사용자는 다음에 비슷한 일을 시킬 때 같은 설명을 다시 반복해야 한다 [00:11]
  • 영상은 이 반복 설명 문제를 헤르메스가 해결하려는 핵심 문제로 제시한다 [00:26]
  • 헤르메스는 어려운 일을 한 번 처리한 뒤, 그 과정에서 얻은 방법을 스킬 파일로 남긴다 [00:41]
  • 이후 비슷한 작업이 들어오면 헤르메스는 해당 스킬을 열어 이전 절차를 참고하고, 사용자가 처음부터 다시 설명하지 않아도 같은 방식으로 적용할 수 있다 [00:56]

2. 스킬의 정체와 사람이 통제할 수 있는 개선 단위

  • 스킬은 특정 일을 어떻게 처리할지 적어둔 설명서에 가깝고, 영상에서는 요리 레시피 카드처럼 작업별 절차 카드로 드러난다 [01:24]
  • 이 비유는 스킬이 거창한 모델 재학습이 아니라, 특정 상황에서 참고할 수 있는 실용적인 작업 지침이라는 점을 강조한다 [01:39]
  • 스킬은 AI 내부의 사람이 읽을 수 없는 숫자 덩어리가 아니라, 사람이 직접 열어볼 수 있는 평범한 글 형태로 존재한다 [01:41]
  • 그래서 사용자는 스킬에 어떤 내용이 추가되었는지, 어떤 절차가 바뀌었는지 확인하고 통제할 수 있다 [01:56]

3. 스킬 파일 구조와 실수 방지 지식의 축적

  • 스킬 파일은 위쪽의 표지와 아래쪽의 내용으로 나뉘며, 표지에는 이름과 한 줄 설명처럼 스킬을 빠르게 식별할 수 있는 정보가 들어간다 [02:30]
  • 이 표지는 새 작업이 들어왔을 때 어떤 스킬을 적용할지 고르는 기준으로 쓰인다 [02:45]
  • 스킬이 수십 개나 수백 개로 늘어나도, 헤르메스는 매번 모든 스킬의 전체 내용을 읽는 것이 아니라 표지를 먼저 보고 관련 스킬을 고를 수 있다 [03:00]
  • 영상은 이를 도서관에서 모든 책을 펼쳐 읽지 않고 제목을 보고 필요한 책을 찾는 구조에 비유한다 [03:15]

4. 두 가지 개선 경로와 작업 후 자동 복습 흐름

  • 스킬이 좋아지는 방식은 크게 두 가지로 나뉜다 [04:12]
  • 첫 번째는 평소 일을 하면서 자연스럽게 요령을 쌓는 방식이고, 두 번째는 사람이 의도적으로 시간을 내어 매뉴얼을 크게 정리하고 다듬는 방식이다 [04:27]
  • 일하면서 스킬을 쌓는 방식은 평소 자동으로 돌아가는 흐름에 가깝고, 비용 부담이 거의 없는 방식으로 드러난다 [04:42]
  • 반면 대청소 방식은 사람이 직접 시작해야 하며, 한 번 실행할 때 약 2,000원에서 만 원 정도의 비용이 들 수 있다고 드러난다 [04:57]

5. 분신 복습의 안전장치와 비용 절감 설계

  • 헤르메스에는 방금 끝난 대화를 처음부터 다시 읽는 복습 전용 역할이 등장한다 [06:41]
  • 이 분신은 대화를 검토한 뒤 스킬로 남길 만한 내용이 있으면 기록하고, 남길 내용이 없으면 종료하는 역할을 맡는다 [06:56]
  • 분신에게는 스킬을 읽고 쓰는 권한만 허용된다 [07:01]
  • 실제 시스템을 변경하거나 파일을 삭제하는 행동은 차단되어 있어, 복습 과정이 스킬 외의 영역을 건드리지 못하도록 안전장치가 걸려 있다 [07:16]

6. 새 스킬의 다음 작업 반영과 정리·대청소 방식

  • 새로 작성된 스킬은 작성 직후 현재 진행 중인 작업에 바로 적용되지 않고, 다음 작업부터 반영된다 [08:33]
  • 그 이유는 작업 중 안내문 앞부분을 바꾸면 캐싱이 깨지고, 시스템이 처음부터 다시 읽어야 해서 비용이 커질 수 있기 때문이다 [08:48]
  • 헤르메스는 대화가 진행되는 도중 안내문을 건드리는 방식을 피한다 [09:10]
  • 대신 새 작업을 시작할 때 스킬 목록을 다시 펼쳐 읽으면서 새 스킬을 반영하는 방식을 택해 비용을 줄인다 [09:25]

7. 정답지와 채점 관문이 스킬 개선의 안전성을 결정한다

  • 스킬 개선을 제대로 돌리려면 시험 문제 모음집이 필요하며, 영상은 이를 스킬 개선을 움직이는 연료처럼 보여준다 [12:02]
  • 한 줄의 시험 문제에는 사용자가 시키는 일과 좋은 답의 조건이 함께 들어가야 하며, 그래야 개선 결과를 평가할 수 있다 [12:17]
  • 좋은 답의 조건은 하나의 정확한 모범 답안이라기보다 체크리스트에 가깝다 [12:19]
  • 답변이 핵심 단어와 조건을 얼마나 잘 담았는지를 기준으로 채점할 수 있기 때문에, “잘 고쳐줘”처럼 모호한 조건은 점수화하기 어렵다 [12:34]

8. 헤르메스의 장점과 한계는 저비용 개선과 사람 승인 사이에서 갈린다

  • 헤르메스는 사용할수록 사용자에게 맞춰지고, 반복 작업을 더 빠르게 처리할 수 있는 방향으로 개선된다 [14:15]
  • 특히 코드, 파일 처리, 정해진 절차처럼 결과가 비교적 명확한 일에서는 잘했는지 못했는지를 구분하기 쉽다 [14:30]
  • 헤르메스의 장점은 비싼 모델 재학습 없이, 설명서에 해당하는 스킬만 고쳐서 개선할 수 있다는 점이다 [14:31]
  • 영상에서는 원래 47번 손이 가던 일이 더 좋은 스킬을 통해 12번으로 줄어든 사례가 언급되며, 스킬 개선이 실제 작업 부담을 줄일 수 있음을 보여준다 [14:46]
  • 제공된 section-detail 기준으로 확인 가능한 마지막 후반부 논지는 저비용 스킬 개선과 작업 절차 단축 사례이며, 14:31 이후 최종 클로징의 정확한 내용은 원문 transcript 확인이 필요하다 [15:01]

🧾 결론

  • 헤르메스는 AI의 “두뇌”를 다시 학습시키기보다, 그 두뇌가 참고하는 작업 설명서인 스킬을 계속 고쳐 쓰는 시스템으로 설명된다.
  • 스킬은 언제 쓰는지, 어떤 순서로 할지, 무엇을 조심할지, 어떻게 확인할지를 담으며, 실제 품질 차이는 특히 주의점과 검증법이 쌓일 때 커집니다.
  • 새 스킬은 현재 대화 중 바로 적용되지 않고 다음 작업부터 반영됩니다. 이는 작업 중 안내문을 바꿔 캐싱 비용이 커지는 문제를 피하기 위한 선택으로 설명된다.
  • 자동 복습용 분신은 스킬 읽기와 쓰기만 할 수 있고 실제 시스템 변경이나 파일 삭제 같은 행동은 차단되어, 사용자가 없는 사이 위험 작업이 실행될 가능성을 줄입니다.
  • 헤르메스의 강점은 답이 비교적 명확한 반복 절차에서 낮은 비용으로 점진 개선을 만들 수 있다는 점이고, 한계는 사람 승인과 평가 기준이 여전히 중요하며 정답이 애매한 작업에는 약하다는 점입니다.

📈 투자·시사 포인트

  • AI 에이전트의 경쟁력은 단순히 더 큰 모델을 쓰는 것뿐 아니라, 반복 작업에서 실패 사례를 얼마나 구조화해 다음 실행 품질로 연결하느냐에 달려 있음을 시사한다.
  • 헤르메스식 스킬 구조는 사람이 읽고 승인할 수 있는 개선 단위를 제공하므로, 완전 자동화보다 통제 가능한 반자동 개선 흐름을 선호하는 조직에 의미가 있다.
  • 비용 관점에서는 비싼 재학습 대신 스킬 파일을 고치는 방식이 강조되며, 영상에서는 대청소 비용이 한 번에 약 2,000원에서 만 원 수준이라고 설명된다.
  • 운영 관점에서는 스킬이 많아질수록 중복·휴면·보관 관리가 필요하며, 헤르메스는 30일 미사용 휴면, 추가 90일 미사용 보관 같은 정리 흐름을 둔다고 설명된다.
  • 검증 필요: 영상에서 언급된 비용 범위와 “47번 손이 가던 일이 12번으로 줄어든 사례”는 영상 발화 기준의 설명이므로, 실제 도입 판단 전에는 각 사용 환경에서 비용·시간·품질 개선 폭을 별도로 측정해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

  • 영상에서는 스킬 대청소 비용이 한 번에 약 2,000원에서 1만 원 수준이라고 설명하지만, 실제 비용은 사용하는 모델, 토큰량, 시험 문제 수, 운영 환경에 따라 달라질 수 있어 최신 기준 확인이 필요하다.
  • “47번 손이 가던 일이 12번으로 줄어든 사례”는 영상 내 사례로 제시되지만, 어떤 작업에서 어떤 기준으로 측정했는지는 제공된 section-detail만으로는 확인되지 않습니다.
  • 스킬이 30일 미사용 시 휴면, 이후 90일 미사용 시 보관으로 이동한다는 설명은 영상 기준이며, 현재 헤르메스 버전의 실제 기본 설정과 일치하는지는 별도 확인이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • 반복해서 시키는 작업 하나를 골라 스킬 파일에 “언제 쓰는지, 순서, 주의할 점, 확인하는 방법”으로 나눠 정리한다.
  • 최근 실패 사례를 모아 “시키는 일”과 “좋은 답의 조건”이 함께 들어간 시험 문제 형태로 기록한다.
  • 스킬 개선 전후에 손이 간 횟수, 수정 횟수, 재시도 횟수처럼 비교 가능한 지표를 남긴다.
  • 자동 복습 분신이 실제로 스킬 읽기·쓰기만 가능하고 시스템 변경이나 파일 삭제 권한은 없는지 확인한다.

❓ 열린 질문

  • 헤르메스가 “스킬로 남길 만한 어려운 일”이라고 판단하는 기준은 무엇인가?
  • 자동 복습으로 생성된 스킬과 사람이 직접 대청소한 스킬이 충돌할 때 우선순위는 어떻게 정해지는가?
  • 요약이나 글쓰기처럼 정답이 애매한 작업에서는 체크리스트 기반 채점을 어디까지 신뢰할 수 있는가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.