쓸수록 똑똑해지는 AI 에이전트, 헤르메스 완벽 정리
Quick Summary
쓸수록 똑똑해지는 AI 에이전트 헤르메스의 핵심은 모델 재학습이 아니라, 반복 작업의 절차·주의점·검증법을 사람이 읽을 수 있는 스킬로 축적해 다음 작업의 실패를 줄이는 구조입니다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
쓸수록 똑똑해지는 AI 에이전트 헤르메스의 핵심은 모델 재학습이 아니라, 반복 작업의 절차·주의점·검증법을 사람이 읽을 수 있는 스킬로 축적해 다음 작업의 실패를 줄이는 구조입니다.
📌 핵심 요점
- 헤르메스는 대화가 끝나면 절차를 잊는 일반 에이전트의 한계를, 작업 방법을 스킬 파일에 남기는 방식으로 보완한다.
- 스킬은 AI 내부의 불투명한 숫자 덩어리가 아니라 사람이 직접 열어 보고 수정할 수 있는 글 형태의 설명서입니다.
- “똑똑해진다”는 변화는 새로운 지식을 막연히 학습한다는 뜻보다, 과거의 실패 지점·주의점·확인 방법이 누적되어 같은 실수를 줄인다는 뜻에 가깝습니다.
- 스킬 개선은 작업 후 자동 복습으로 조금씩 쌓는 방식과, 사람이 시작해 여러 버전을 시험하고 승인하는 대청소 방식으로 나뉩니다.
- 안전성은 분신의 권한 제한, 복제 차단, 숨겨둔 시험 문제, 다섯 관문, 사람 승인 같은 장치를 통해 확보되도록 설계되어 있다.
🧩 배경과 문제 정의
- 이 영상은 AI 에이전트가 대화가 끝난 뒤 이전 작업에서 배운 절차를 잊어버리는 문제에서 출발한다.
- 사용자는 비슷한 일을 반복할 때마다 같은 방법, 주의점, 검증 절차를 다시 설명해야 하고, 이로 인해 에이전트 사용 경험이 누적되지 않는 비효율이 생긴다.
- 헤르메스가 개선하려는 대상은 AI 모델의 내부 두뇌 자체가 아니라, 사람이 읽고 고칠 수 있는 스킬 파일이다.
- 스킬 파일에는 특정 작업을 처리하는 절차, 실수하기 쉬운 지점, 검증 방법이 기록되고, 다음 작업에서 다시 불러와 활용된다.
- 따라서 “쓸수록 똑똑해진다”는 말은 모델이 자동으로 막연히 학습한다는 뜻이 아니라, 실패와 해결 과정이 스킬에 남아 같은 실수를 줄이는 구조를 뜻한다.
- 영상은 헤르메스의 스킬이 무엇인지, 스킬이 어떻게 쌓이고 개선되는지, 자동 복습과 사람이 주도하는 대청소 방식이 어떤 차이를 갖는지 설명한다.
- 또한 스킬 개선이 안전하게 작동하려면 비용 관리, 권한 제한, 정답지와 채점 기준 같은 장치가 필요하다는 점을 함께 다룬다.
- 제공된 section-detail 기준으로는 14:31 이후의 세부 마무리 발언은 포함되어 있지 않으므로, 영상의 마지막 문장이나 최종 클로징 표현은 원문 transcript 확인이 필요하다.
🕒 시간순 섹션별 상세정리
1. 반복 설명 문제와 스킬 중심 개선 구조
- 일반적인 AI 에이전트는 대화가 끝나면 이전 작업의 맥락과 절차를 잊는 경우가 많고, 사용자는 다음에 비슷한 일을 시킬 때 같은 설명을 다시 반복해야 한다 [00:11]
- 영상은 이 반복 설명 문제를 헤르메스가 해결하려는 핵심 문제로 제시한다 [00:26]
- 헤르메스는 어려운 일을 한 번 처리한 뒤, 그 과정에서 얻은 방법을 스킬 파일로 남긴다 [00:41]
- 이후 비슷한 작업이 들어오면 헤르메스는 해당 스킬을 열어 이전 절차를 참고하고, 사용자가 처음부터 다시 설명하지 않아도 같은 방식으로 적용할 수 있다 [00:56]
2. 스킬의 정체와 사람이 통제할 수 있는 개선 단위
- 스킬은 특정 일을 어떻게 처리할지 적어둔 설명서에 가깝고, 영상에서는 요리 레시피 카드처럼 작업별 절차 카드로 드러난다 [01:24]
- 이 비유는 스킬이 거창한 모델 재학습이 아니라, 특정 상황에서 참고할 수 있는 실용적인 작업 지침이라는 점을 강조한다 [01:39]
- 스킬은 AI 내부의 사람이 읽을 수 없는 숫자 덩어리가 아니라, 사람이 직접 열어볼 수 있는 평범한 글 형태로 존재한다 [01:41]
- 그래서 사용자는 스킬에 어떤 내용이 추가되었는지, 어떤 절차가 바뀌었는지 확인하고 통제할 수 있다 [01:56]
3. 스킬 파일 구조와 실수 방지 지식의 축적
- 스킬 파일은 위쪽의 표지와 아래쪽의 내용으로 나뉘며, 표지에는 이름과 한 줄 설명처럼 스킬을 빠르게 식별할 수 있는 정보가 들어간다 [02:30]
- 이 표지는 새 작업이 들어왔을 때 어떤 스킬을 적용할지 고르는 기준으로 쓰인다 [02:45]
- 스킬이 수십 개나 수백 개로 늘어나도, 헤르메스는 매번 모든 스킬의 전체 내용을 읽는 것이 아니라 표지를 먼저 보고 관련 스킬을 고를 수 있다 [03:00]
- 영상은 이를 도서관에서 모든 책을 펼쳐 읽지 않고 제목을 보고 필요한 책을 찾는 구조에 비유한다 [03:15]
4. 두 가지 개선 경로와 작업 후 자동 복습 흐름
- 스킬이 좋아지는 방식은 크게 두 가지로 나뉜다 [04:12]
- 첫 번째는 평소 일을 하면서 자연스럽게 요령을 쌓는 방식이고, 두 번째는 사람이 의도적으로 시간을 내어 매뉴얼을 크게 정리하고 다듬는 방식이다 [04:27]
- 일하면서 스킬을 쌓는 방식은 평소 자동으로 돌아가는 흐름에 가깝고, 비용 부담이 거의 없는 방식으로 드러난다 [04:42]
- 반면 대청소 방식은 사람이 직접 시작해야 하며, 한 번 실행할 때 약 2,000원에서 만 원 정도의 비용이 들 수 있다고 드러난다 [04:57]
5. 분신 복습의 안전장치와 비용 절감 설계
- 헤르메스에는 방금 끝난 대화를 처음부터 다시 읽는 복습 전용 역할이 등장한다 [06:41]
- 이 분신은 대화를 검토한 뒤 스킬로 남길 만한 내용이 있으면 기록하고, 남길 내용이 없으면 종료하는 역할을 맡는다 [06:56]
- 분신에게는 스킬을 읽고 쓰는 권한만 허용된다 [07:01]
- 실제 시스템을 변경하거나 파일을 삭제하는 행동은 차단되어 있어, 복습 과정이 스킬 외의 영역을 건드리지 못하도록 안전장치가 걸려 있다 [07:16]
6. 새 스킬의 다음 작업 반영과 정리·대청소 방식
- 새로 작성된 스킬은 작성 직후 현재 진행 중인 작업에 바로 적용되지 않고, 다음 작업부터 반영된다 [08:33]
- 그 이유는 작업 중 안내문 앞부분을 바꾸면 캐싱이 깨지고, 시스템이 처음부터 다시 읽어야 해서 비용이 커질 수 있기 때문이다 [08:48]
- 헤르메스는 대화가 진행되는 도중 안내문을 건드리는 방식을 피한다 [09:10]
- 대신 새 작업을 시작할 때 스킬 목록을 다시 펼쳐 읽으면서 새 스킬을 반영하는 방식을 택해 비용을 줄인다 [09:25]
7. 정답지와 채점 관문이 스킬 개선의 안전성을 결정한다
- 스킬 개선을 제대로 돌리려면 시험 문제 모음집이 필요하며, 영상은 이를 스킬 개선을 움직이는 연료처럼 보여준다 [12:02]
- 한 줄의 시험 문제에는 사용자가 시키는 일과 좋은 답의 조건이 함께 들어가야 하며, 그래야 개선 결과를 평가할 수 있다 [12:17]
- 좋은 답의 조건은 하나의 정확한 모범 답안이라기보다 체크리스트에 가깝다 [12:19]
- 답변이 핵심 단어와 조건을 얼마나 잘 담았는지를 기준으로 채점할 수 있기 때문에, “잘 고쳐줘”처럼 모호한 조건은 점수화하기 어렵다 [12:34]
8. 헤르메스의 장점과 한계는 저비용 개선과 사람 승인 사이에서 갈린다
- 헤르메스는 사용할수록 사용자에게 맞춰지고, 반복 작업을 더 빠르게 처리할 수 있는 방향으로 개선된다 [14:15]
- 특히 코드, 파일 처리, 정해진 절차처럼 결과가 비교적 명확한 일에서는 잘했는지 못했는지를 구분하기 쉽다 [14:30]
- 헤르메스의 장점은 비싼 모델 재학습 없이, 설명서에 해당하는 스킬만 고쳐서 개선할 수 있다는 점이다 [14:31]
- 영상에서는 원래 47번 손이 가던 일이 더 좋은 스킬을 통해 12번으로 줄어든 사례가 언급되며, 스킬 개선이 실제 작업 부담을 줄일 수 있음을 보여준다 [14:46]
- 제공된 section-detail 기준으로 확인 가능한 마지막 후반부 논지는 저비용 스킬 개선과 작업 절차 단축 사례이며, 14:31 이후 최종 클로징의 정확한 내용은 원문 transcript 확인이 필요하다 [15:01]
🧾 결론
- 헤르메스는 AI의 “두뇌”를 다시 학습시키기보다, 그 두뇌가 참고하는 작업 설명서인 스킬을 계속 고쳐 쓰는 시스템으로 설명된다.
- 스킬은 언제 쓰는지, 어떤 순서로 할지, 무엇을 조심할지, 어떻게 확인할지를 담으며, 실제 품질 차이는 특히 주의점과 검증법이 쌓일 때 커집니다.
- 새 스킬은 현재 대화 중 바로 적용되지 않고 다음 작업부터 반영됩니다. 이는 작업 중 안내문을 바꿔 캐싱 비용이 커지는 문제를 피하기 위한 선택으로 설명된다.
- 자동 복습용 분신은 스킬 읽기와 쓰기만 할 수 있고 실제 시스템 변경이나 파일 삭제 같은 행동은 차단되어, 사용자가 없는 사이 위험 작업이 실행될 가능성을 줄입니다.
- 헤르메스의 강점은 답이 비교적 명확한 반복 절차에서 낮은 비용으로 점진 개선을 만들 수 있다는 점이고, 한계는 사람 승인과 평가 기준이 여전히 중요하며 정답이 애매한 작업에는 약하다는 점입니다.
📈 투자·시사 포인트
- AI 에이전트의 경쟁력은 단순히 더 큰 모델을 쓰는 것뿐 아니라, 반복 작업에서 실패 사례를 얼마나 구조화해 다음 실행 품질로 연결하느냐에 달려 있음을 시사한다.
- 헤르메스식 스킬 구조는 사람이 읽고 승인할 수 있는 개선 단위를 제공하므로, 완전 자동화보다 통제 가능한 반자동 개선 흐름을 선호하는 조직에 의미가 있다.
- 비용 관점에서는 비싼 재학습 대신 스킬 파일을 고치는 방식이 강조되며, 영상에서는 대청소 비용이 한 번에 약 2,000원에서 만 원 수준이라고 설명된다.
- 운영 관점에서는 스킬이 많아질수록 중복·휴면·보관 관리가 필요하며, 헤르메스는 30일 미사용 휴면, 추가 90일 미사용 보관 같은 정리 흐름을 둔다고 설명된다.
- 검증 필요: 영상에서 언급된 비용 범위와 “47번 손이 가던 일이 12번으로 줄어든 사례”는 영상 발화 기준의 설명이므로, 실제 도입 판단 전에는 각 사용 환경에서 비용·시간·품질 개선 폭을 별도로 측정해야 한다.
⚠️ 불확실하거나 확인이 필요한 부분
- 영상에서는 스킬 대청소 비용이 한 번에 약 2,000원에서 1만 원 수준이라고 설명하지만, 실제 비용은 사용하는 모델, 토큰량, 시험 문제 수, 운영 환경에 따라 달라질 수 있어 최신 기준 확인이 필요하다.
- “47번 손이 가던 일이 12번으로 줄어든 사례”는 영상 내 사례로 제시되지만, 어떤 작업에서 어떤 기준으로 측정했는지는 제공된 section-detail만으로는 확인되지 않습니다.
- 스킬이 30일 미사용 시 휴면, 이후 90일 미사용 시 보관으로 이동한다는 설명은 영상 기준이며, 현재 헤르메스 버전의 실제 기본 설정과 일치하는지는 별도 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 반복해서 시키는 작업 하나를 골라 스킬 파일에 “언제 쓰는지, 순서, 주의할 점, 확인하는 방법”으로 나눠 정리한다.
- 최근 실패 사례를 모아 “시키는 일”과 “좋은 답의 조건”이 함께 들어간 시험 문제 형태로 기록한다.
- 스킬 개선 전후에 손이 간 횟수, 수정 횟수, 재시도 횟수처럼 비교 가능한 지표를 남긴다.
- 자동 복습 분신이 실제로 스킬 읽기·쓰기만 가능하고 시스템 변경이나 파일 삭제 권한은 없는지 확인한다.
❓ 열린 질문
- 헤르메스가 “스킬로 남길 만한 어려운 일”이라고 판단하는 기준은 무엇인가?
- 자동 복습으로 생성된 스킬과 사람이 직접 대청소한 스킬이 충돌할 때 우선순위는 어떻게 정해지는가?
- 요약이나 글쓰기처럼 정답이 애매한 작업에서는 체크리스트 기반 채점을 어디까지 신뢰할 수 있는가?