하네스 엔지니어링! 에이전트들끼리 어떻게 일하게 할까? (황민호 카카오 AI네이티브 전략팀 리더)

🖼️ 인포그래픽

하네스 엔지니어링! 에이전트들끼리 어떻게 일하게 할까? (황민호 카카오 AI네이티브 전략팀 리더) 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

하네스 엔지니어링은 에이전트들끼리 어떻게 일하게 할까라는 질문에 대해, 여러 AI를 팀처럼 나누고 오케스트레이터와 스킬로 협업 구조를 설계해야 한다고 답한다.

📌 핵심 요점

단일 AI는 요약·초안 작성 같은 단일 작업에는 강하지만, 대규모 코드 분석, 창의적 작업, 프로덕션 수준의 복합 업무에서는 컨텍스트 한계와 방향 상실 문제가 커진다.
하네스 엔지니어링은 여러 에이전트가 역할을 나누고 서로 커뮤니케이션하며, 오케스트레이터가 부족한 부분을 발견해 추가 리서치나 보완 작업을 배정하는 구조다.
프롬프트 엔지니어링과 컨텍스트 엔지니어링은 여전히 중요하지만, 이제는 모델 자체보다 모델을 둘러싼 환경·역할·작업 흐름·상호작용 설계가 결과 품질을 크게 좌우한다.
스킬은 에이전트에게 반복 가능한 작업 절차와 품질 기준을 제공하는 매뉴얼에 가깝고, 공유 가능한 자산이 되지만 조직 안에서는 개인화와 소유권 이슈도 함께 생긴다.
멀티에이전트 하네스는 토큰 비용을 늘릴 수 있지만, 핵심은 비용 절감 자체보다 가치 있는 작업에 토큰을 쓰는지이며, 조직은 초기 실험과 다양한 사용을 허용해야 가능성을 찾을 수 있다.

🧩 배경과 문제 정의

단일 AI는 초안 작성·요약처럼 범위가 분명한 작업에는 강하지만, 대규모 코드 분석·창의적 기획·프로덕션 수준의 복합 업무에서는 한계를 드러낸다.
컨텍스트가 길어질수록 AI가 방향을 잃거나 중요한 조건을 놓칠 수 있어, 필요한 맥락을 역할별로 나누어 관리하는 구조가 중요해진다.
하네스 엔지니어링은 여러 에이전트가 역할을 나누고, 오케스트레이터가 전체 흐름을 조율해 사람 조직처럼 협업하도록 설계하는 접근이다.
하네스백은 추상적 개념에 가까웠던 하네스를 실제로 활용할 수 있는 사례와 스킬 묶음으로 만들고, 개발을 넘어 일상 업무와 창작 영역까지 확장하려는 시도다.
핵심 문제는 “AI에게 어떤 프롬프트를 줄 것인가”를 넘어, “AI들이 어떤 팀 구조로 일하게 만들고, 그 결과를 어떻게 검증할 것인가”로 이동하고 있다.

🕒 시간순 섹션별 상세정리

1. 단일 에이전트에서 팀 단위 에이전트로 넘어가는 문제의식

단일 에이전트보다 여러 에이전트가 팀처럼 구성되어 소통할 때, 리서치·분석·보완 작업을 더 넓은 관점에서 분담할 수 있다 [00:20]
리서치 과정에서는 여러 에이전트가 서로 다른 관점으로 검색·분석하고, 오케스트레이터가 부족한 지점을 발견하면 리서치 에이전트를 다시 호출해 추가 조사를 맡긴다 [00:29]

2. 클로드 코드 경험과 AI에게 핸들을 넘기는 전환

작년 5월부터 클로드 코드를 사용하며 다양한 작업을 시도했지만, 생산성은 사용자가 직접 핸들을 잡고 있을 때 주로 발생했다 [01:26]
올해 초부터는 핸들을 AI에게 넘겨 볼 수 있는지 고민이 시작됐고, 이 흐름이 업계에서 말하는 하네스 개념과 연결됐다 [01:37]

3. 프롬프트·컨텍스트·하네스 엔지니어링의 역할 차이

프롬프트 엔지니어링은 AI에게 어떻게 말하고, 질문하고, 명령을 넣을지에 초점을 맞춘 접근이었다 [02:25]
컨텍스트 엔지니어링은 잘 답하는 AI에게 어떤 정보와 맥락을 제공해야 더 좋은 결과가 나오는지로 문제의식이 확장된 개념이다 [02:36]

4. 프로덕션 수준 작업에서 드러나는 단일 에이전트와 컨텍스트 한계

초기에는 다양한 프롬프트 기법이 등장했고, 일부는 시간이 지나며 모델 내부 기능으로 흡수될 만큼 AI 기술 자체도 발전했다 [03:30]
챗GPT나 제미나이 같은 도구는 보고서 초안 작성이나 요약 같은 단일 작업에는 강하지만, 프로덕션 수준으로 가면 요구 조건이 훨씬 복잡해진다 [04:17]

5. 하네스백 공개와 일상·창작 영역으로의 확장

하네스 개념은 처음에는 실체가 부족했기 때문에, 자동으로 하네스를 구성해 주는 스킬이 오픈소스로 공개됐다 [05:49]
하네스 스킬을 여러 작업에 적용해 보면서, 개발자 전용 도구를 넘어 일상생활의 다양한 장면에도 활용될 수 있다는 가능성이 커졌다 [06:05]

6. 드라마 대본 실험과 하네스 커스터마이징의 조건

장편 드라마 대본 실험에서는 하나의 주제를 던졌을 때 AI가 어디까지 확장할 수 있는지 확인했고, 에이전트 간 대화를 실제 대본 안에 반영하는 시도까지 이뤄졌다 [07:09]
대본 작성 하네스는 캐릭터 설정, 세계관 구성, 대본 요소 점검, 임팩트 검토, 수정 역할을 맡는 여러 에이전트로 구성된다 [07:47]

7. 에이전트별 역할 분화와 오케스트레이터의 필요성

여러 에이전트가 동시에 움직이면 각자의 전문성을 살릴 수 있지만, 전체 방향을 조율하지 않으면 산출물이 쉽게 흩어질 수 있다 [09:45]
오케스트레이터는 각 에이전트의 결과를 검토해 부족한 부분을 다시 요청하거나, 다음 단계로 넘길지 판단하는 조정자 역할을 맡는다 [10:15]

8. 스킬은 에이전트의 작업 절차와 품질 기준을 만든다

특정 에이전트를 불러 커피챗을 하면 말투와 역할 인식이 달라지고, 현재 수행 중인 일과 개선이 필요한 지점을 기준으로 대화가 계속된다 [12:08]
에이전트가 전문 역할과 기본 원칙을 갖고 있어도 세부 실행 방법은 모를 수 있기 때문에, 스킬은 매뉴얼처럼 절차를 제공해 작업을 반복 가능하게 만든다 [12:54]

9. 스킬은 공유 가능한 자산이지만 개인화와 소유권 이슈를 함께 만든다

스킬 중심 경제와 인력 관리 흐름에서는 인간과 에이전트의 상호작용도 스킬 단위로 묶이고, 스킬은 협업을 위한 공통 화폐에 가까워진다 [13:37]
스킬은 오픈소스처럼 공유될 수 있지만, 한 줄 요청만으로 만들고 수정할 수 있어 기존 오픈소스보다 생성과 커스터마이징 비용이 낮다 [14:07]

10. 토큰 비용보다 가치 있는 작업에 토큰을 쓰는지가 핵심이다

멀티에이전트 하네스를 구성하면 토큰 사용량이 자연스럽게 크게 늘어나기 때문에, 조직에는 토큰을 어떻게 줄일지에 대한 방법론이 필요해진다 [16:34]
모델 티어링은 작업별로 최적 모델을 고르는 방식이지만, 모델 성능이 높아질수록 오류가 더 교묘해져 개인이 식별하기 어려워진다 [17:05]

11. 조직은 초기 실험과 딴짓을 허용해야 AI 활용 가능성을 찾는다

토큰 맥싱 정책에서는 점심 메뉴나 연애 상담 같은 프롬프트까지 늘어날 수 있어, 조직이 원하는 성과 관리와 탐색적 사용 사이에 긴장이 생긴다 [18:28]
업무에 AI를 도입해 좋은 산출물을 만든 공무원도 딴짓하는 공무원이라는 꼬리표를 얻었지만, 초기 도입기에는 이런 딴짓이 새로운 인사이트의 출발점이 된다 [18:57]

12. 리서치 하네스는 멀티에이전트 효과를 체감하기 쉬운 시작점이다

하네스팩을 처음 쓰려면 리서치부터 시작하는 구성이 가장 접근하기 쉽고, 하네스가 있을 때와 없을 때의 결과물을 비교하기도 좋다 [20:03]
하나의 에이전트가 반복 검색하는 방식이 아니라, 여러 에이전트가 각자의 원칙과 지식으로 검색하고 분석할 때 결과물의 품질 차이가 커진다 [20:32]

13. 하네스의 본질은 에이전트 팀 구조와 경험 기반 설계다

하네스 엔지니어링이라는 키워드보다 더 큰 변화는, AI 에이전트가 사람이 맡던 업무의 상당 부분을 대신할 수 있는 단계에 들어섰다는 점이다 [22:07]
핵심은 단일 에이전트가 아니라, 여러 에이전트가 팀처럼 역할을 나누고 커뮤니케이션하며 일하는 구조가 가능해졌다는 데 있다 [22:18]

14. 에이전트 부서와 하네스 설계 역할의 등장

AI 에이전트로 구성된 부서는 물리적 공간이 없어도 생겨날 수 있으며, 의미 있는 성과물을 만드는 새로운 조직 단위가 될 수 있다 [24:01]
신사업 분야 하네스 팀의 역할은 좋은 에이전트들이 협업하고 상호작용하도록 업무 구조와 흐름을 설계하는 데 있다 [24:22]

15. 대체 불안보다 경험 확장과 새 직군 전환

잘 설계된 하네스가 위에서 내려오면 구성원은 자신의 업무 상당 부분이 대체될 수 있다는 걱정과 두려움을 느낄 수 있다 [25:19]
엑셀이 업무 혁신을 만들었던 것처럼, AI도 처음에는 기존 일을 대체하는 듯 보이지만 결국 새로운 일과 직군을 만들어낼 가능성이 크다 [25:41]

16. AI 네이티브 세대의 다른 접근법과 대량 실험

AI-native는 기존 회사 문법에 AI를 덧붙이는 AI-enabled와 달리, 일하는 프로세스와 구조 자체를 바꾸는 접근에 가깝다 [27:13]
대학생들은 하네스라는 새 기술을 받아들이는 방식과 사고방식이 다르며, 빠르게 적응해 기존 사용자보다 더 능숙하게 활용하는 사례가 나온다 [27:39]

17. 사람 간 협업의 축소와 AI 도구별 충돌

기존 조직 문법에 익숙한 AI-enabled 구성원과 새롭게 들어오는 AI-native 구성원이 함께 일할 때, 협업 방식과 안전지대가 중요한 고민이 된다 [28:26]
에이전트 답변 품질이 높아질수록 동료보다 AI에게 업무를 지시하는 편이 더 편해지고, 사람 간 협업의 비중과 방식도 흔들리게 된다 [28:44]

18. 범용 하네스보다 동적 하네스와 접근 장벽 완화

하네스 200이나 하네스 4처럼 범용 하네스를 계속 확장하기보다, 특정 업무에 맞춰 그때그때 동적으로 하네스를 구성하는 방식이 더 효과적일 수 있다 [30:29]
동적으로 만든 하네스가 원하는 결과를 내는지 확인하려면, 품질을 측정하고 결과를 검증하는 체계가 함께 보강되어야 한다 [31:00]

19. 후반 결론: 하네스는 AI 시대의 일하는 방식 재설계다

하네스 엔지니어링의 핵심은 특정 도구 하나를 잘 쓰는 데 있지 않고, AI 에이전트들이 함께 일할 수 있는 업무 구조를 설계하는 데 있다 [32:20]
앞으로의 경쟁력은 프롬프트 작성 능력만이 아니라, 에이전트의 역할·스킬·검증 기준·협업 흐름을 어떻게 조합하느냐에서 나올 수 있다 [32:50]

🧾 결론

이 영상의 핵심은 AI 활용의 중심이 “좋은 질문을 던지는 법”에서 “AI들이 함께 일할 구조를 짜는 법”으로 이동하고 있다는 점이다.
하네스는 단순히 에이전트를 많이 띄우는 방식이 아니라, 필요한 역할을 구분하고, 순서를 정하고, 오케스트레이터가 흐름을 유지하게 만드는 협업 설계에 가깝다.
리서치 하네스는 멀티에이전트 효과를 체감하기 쉬운 출발점으로 제시된다. 여러 에이전트가 각자 다른 관점으로 조사하고, 부족한 부분을 다시 보완하는 과정에서 단일 에이전트와 다른 결과를 만든다.
하네스의 품질은 도구 자체보다 사용자가 자신의 도메인 지식과 업무 흐름을 얼마나 잘 반영해 에이전트와 스킬을 다듬는지에 달려 있다.
AI가 기존 업무를 대체할 수 있다는 불안도 있지만, 발표자는 엑셀처럼 새로운 일과 직군을 만들 가능성도 함께 본다. 변화에 적응하려면 AI 사용 경험을 많이 쌓는 것이 중요하다고 본다.

📈 투자·시사 포인트

기업 관점에서는 AI 도입의 경쟁력이 단순 모델 구독이나 챗봇 사용이 아니라, 업무별 에이전트 구조·스킬·오케스트레이션을 얼마나 잘 설계하느냐로 이동할 수 있다.
멀티에이전트 구조가 확산되면 리서치, 개발, 기획, 콘텐츠 제작처럼 복합 판단과 반복 검토가 필요한 업무에서 생산성 실험이 늘어날 가능성이 있다.
스킬은 조직 내부의 지식과 절차를 재사용 가능한 단위로 바꾸는 자산이 될 수 있다. 다만 좋은 스킬을 누가 만들고, 누가 소유하며, 어떻게 공유할지에 대한 조직적 합의가 필요하다.
토큰 비용 증가는 단기 부담이지만, 영상에서는 비용 자체보다 토큰이 가치 있는 탐색과 산출물 생성에 쓰이는지가 더 중요하다고 본다.
검증이 필요한 부분: 멀티에이전트 하네스가 실제 조직에서 어느 정도의 비용 대비 성과를 내는지, 품질 측정 체계가 어떻게 작동하는지, 사람 간 협업 감소나 도구 간 충돌이 얼마나 큰 문제로 나타나는지는 각 조직의 실험과 데이터로 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

영상에서 언급된 “작년 5월”, “올해 초” 같은 표현은 업로드일 기준으로 해석하면 각각 2025년 5월, 2026년 초로 보이지만, 실제 발화 맥락상 정확한 기준 시점은 별도 확인이 필요하다.
“하네스백”, “하네스팩”처럼 유사한 표현이 함께 등장하므로, 실제 프로젝트명·저장소명·공개 명칭이 무엇인지 원문 링크나 GitHub 자료로 확인해야 한다.
클로드 코드에서 에이전트 간 커뮤니케이션을 쓰면 토큰이 약 30% 더 소모될 수 있다는 언급은 영상 속 경험 기반 주장으로 보이며, 일반화하려면 실제 사용 조건과 측정 기준 확인이 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

단일 에이전트로 처리하던 업무 중 리서치·분석·검토가 섞인 작업 1개를 골라 멀티에이전트 하네스 실험 대상으로 정한다.
실험용 하네스에 필요한 역할을 리서처, 분석가, 검토자, 수정자, 오케스트레이터처럼 겹치지 않게 나눈다.
각 에이전트가 받아야 할 컨텍스트를 최소 단위로 분리해, 긴 대화 전체를 한 에이전트에게 몰아주지 않는 구조를 설계한다.
반복 작업에는 스킬 형태의 절차서와 품질 기준을 만들어 결과물의 일관성을 점검한다.

❓ 열린 질문

어떤 업무는 범용 하네스가 더 적합하고, 어떤 업무는 매번 동적으로 하네스를 생성하는 방식이 더 적합할까?
멀티에이전트 결과물의 품질을 사람이 납득할 수 있게 평가하려면 어떤 검증 기준이 필요할까?
에이전트가 동료보다 편한 협업 상대가 될 때, 사람 간 협업 역량과 조직 내 신뢰는 어떻게 유지해야 할까?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. 단일 에이전트에서 팀 단위 에이전트로 넘어가는 문제의식

2. 클로드 코드 경험과 AI에게 핸들을 넘기는 전환

3. 프롬프트·컨텍스트·하네스 엔지니어링의 역할 차이

4. 프로덕션 수준 작업에서 드러나는 단일 에이전트와 컨텍스트 한계

5. 하네스백 공개와 일상·창작 영역으로의 확장

6. 드라마 대본 실험과 하네스 커스터마이징의 조건

7. 에이전트별 역할 분화와 오케스트레이터의 필요성

8. 스킬은 에이전트의 작업 절차와 품질 기준을 만든다

9. 스킬은 공유 가능한 자산이지만 개인화와 소유권 이슈를 함께 만든다

10. 토큰 비용보다 가치 있는 작업에 토큰을 쓰는지가 핵심이다

11. 조직은 초기 실험과 딴짓을 허용해야 AI 활용 가능성을 찾는다

12. 리서치 하네스는 멀티에이전트 효과를 체감하기 쉬운 시작점이다

13. 하네스의 본질은 에이전트 팀 구조와 경험 기반 설계다

14. 에이전트 부서와 하네스 설계 역할의 등장

15. 대체 불안보다 경험 확장과 새 직군 전환

16. AI 네이티브 세대의 다른 접근법과 대량 실험

17. 사람 간 협업의 축소와 AI 도구별 충돌

18. 범용 하네스보다 동적 하네스와 접근 장벽 완화

19. 후반 결론: 하네스는 AI 시대의 일하는 방식 재설계다

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

WTF Is a Loop? Peter Steinberger vs. Boris Cherny

OpenClaw Claude Code + World Monitor = ULTIMATE News Research

Anthropic’s Claude Code creator says there are days he manages tens of thousands of AI agents at once

OpenAI Has Some Catching Up to Do

Introducing Rubrics: Build Agents that Evaluate and Correct Their Work

스탠퍼드 STORM, 클로드로 5분 만에 박사처럼 리서치? 130만 조회 글의 진짜 정체