프롬프트 엔지니어링은 끝났습니다: 이제 ''하네스''의 시대입니다
Quick Summary
AI 에이전트가 실수했을 때 프롬프트를 고칠 게 아니라, 그 실수가 구조적으로 불가능해지도록 시스템을 고치는 것 —하네스 엔지니어링이 바로 그것이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 4컷 인포그래픽

💡 한 줄 결론
AI 에이전트가 실수했을 때 프롬프트를 고칠 게 아니라, 그 실수가 구조적으로 불가능해지도록 시스템을 고치는 것—하네스 엔지니어링이 바로 그것이다.
📌 핵심 요점
- 프롬프트는 부탁이고, 하네스는 강제다. 아무리 정교한 프롬프트와 컨텍스트 설계로도 AI는 규칙을 어긴다. 규칙 위반을 시스템 차원에서 물리적으로 차단해야 같은 실수가 반복되지 않는다.
- 하네스의 철학은 "구조적 불가능화"다. 에이전트가 틀렸을 때 "더 잘해 봐"가 아니라, 그 실패 경로 자체를 막는 린터·아키텍처 테스트·커밋 훅을 추가해 실수를 원천 차단한다.
- 하네스는 네 기둥으로 구성된다. 기계가 읽는 컨텍스트 파일, 시스템 자동 강제(린터·구조 테스트), 자동 교정 루프(실패→수정→재시도), 도구 접근 제한(영역별 권한 차단)이 상호보완적으로 작동한다.
- 에이전틱 엔지니어링과 하네스 엔지니어링은 불가분의 한 쌍이다. 에이전틱이 "말을 훈련시키는 기술"이라면, 하네스는 "가죽끈·굴레·수레를 만드는 기술"이다. 아무리 잘 훈련된 말도 마구 없이는 밭을 갈 수 없다.
- 인간의 역할은 축소가 아니라 상향 이동이다. 직접 코드를 쓰는 대신 AI가 실수할 수 없는 환경을 설계하고 최종 책임을 지는 감독 역할로 올라간다. 비개발자에게도 동일하게 적용된다.
🧩 배경과 문제 정의
- AI 활용은 프롬프트 엔지니어링, 컨텍스트 엔지니어링, 하네스 엔지니어링, 에이전틱 엔지니어링 네 축으로 구성된다. 각 축은 순차 졸업이 아니라 상호보완적으로 모두 필요하다.
- 프롬프트·컨텍스트 엔지니어링은 AI에게 정보를 잘 전달하는 기술이지만, AI가 그 정보를 가지고 엉뚱한 행동을 하는 문제—DB 스키마 무단 변경, 신용카드 번호 로그 출력 등—까지는 해결하지 못한다.
- 이는 정보의 문제가 아니라 규칙과 울타리의 문제다. 강력한 AI일수록 통제 없이는 더 위험해진다.
- AI 에이전트가 자율적으로 일하되 안전하게 통제되도록 환경을 설계하는 하네스 엔지니어링이 바로 이 간극을 메운다.
🕒 시간순 섹션별 상세정리
1. 오픈AI 엔지니어 세 명의 실험 [00:50]
- 오픈AI 엔지니어 세 명이 코드를 한 줄도 직접 쓰지 않고 5개월 만에 소프트웨어 제품을 배포했다.
- 이들이 한 일은 코드 작성이 아니라 AI가 안전하게 코드를 만들 수 있는 환경 설계였다.
- 이 환경을 만드는 기술을 하네스 엔지니어링이라 부르며, 최근 AI 개발 커뮤니티에서 지속적으로 언급되고 있다.
2. AI 활용 네 축 프레임워크 [01:25]
- AI 활용법을 프롬프트·컨텍스트·하네스·에이전틱 엔지니어링 네 축으로 나눌 수 있다.
- 네 축은 순서대로 졸업하는 게 아니라 모두 필요한 상호보완적 영역이다.
- 앞의 두 축은 배경으로 빠르게 짚고, 하네스 엔지니어링에 집중한 뒤 마지막에 에이전틱 엔지니어링과의 관계를 정리한다.
3. 프롬프트 엔지니어링의 천장 [02:03]
- 프롬프트 엔지니어링은 AI에게 구체적으로 요청해 결과를 개선하는 기술이다. "계산기 만들어 줘" 대신 "공학용 계산기, 사인·코사인·탄젠트 지원, GUI 포함"이라고 요청하면 결과가 확연히 달라진다.
- 하지만 아무리 정교하게 "로그인 기능을 추가해 줘"라고 써도, AI가 프로젝트의 기술 스택·코드 구조·DB 스키마를 모르면 좋은 코드가 나올 수 없다.
4. 컨텍스트 엔지니어링과 그 한계 [02:50]
- 컨텍스트 엔지니어링은 프롬프트뿐 아니라 프로젝트 구조, 기존 코드, 예시, API 문서, 디자인 규칙까지 함께 제공하는 기술이다.
- 앤스로픽의 정의에 따르면 "AI가 일할 때 필요한 정보를 적절하게 제공하는 기술"이며, 핵심은 많이 주는 게 아니라 지금 필요한 것만 정확히 주는 것이다. 정보를 과도하게 주면 오히려 성능이 떨어진다.
- 그러나 컨텍스트를 아무리 잘 설계해도 AI가 정보는 다 알면서도 엉뚱한 행동을 하는 문제는 해결되지 않는다. 결제 시스템에서 DB 스키마를 마음대로 바꾸거나 신용카드 번호를 로그에 출력하는 식이다.
5. 말과 마구의 비유 [03:44]
- AI 에이전트를 거대한 말에 비유한다. 말은 밭을 갈고 통나무를 끌며 무거운 짐을 운반할 만큼 강력하지만, 마구를 씌우지 않으면 숲으로 달려가고 작물을 밟으며 울타리를 부수고 도망친다.
- 에이전틱 엔지니어링은 "말을 훈련시키는 기술"이다. 추론 루프를 설계하고 멀티에이전트를 조율하며 도구 사용법을 가르쳐 말 자체를 더 강하게 만든다.
- 하네스 엔지니어링은 "가죽끈·굴레·수레를 만드는 기술"로, 가드레일과 테스트 게이트를 통해 제약을 거는 데 집중한다.
- 에이전틱 엔지니어링이 AI가 "어떻게 생각하는가"를 다룬다면, 하네스 엔지니어링은 "무엇을 할 수 있고 없는가"를 다룬다. 말을 아무리 잘 훈련시켜도 마구 없이는 밭을 갈 수 없다.
6. 하네스 엔지니어링의 정의와 역사 [05:55]
- 마틴 파울러가 체계화한 정의에 따르면, 하네스 엔지니어링은 "AI 에이전트가 자율적으로 일하되 동시에 안전하게 통제할 수 있는 환경을 만드는 것"이다.
- 하네스라는 단어는 갑자기 등장한 것이 아니다. 소프트웨어 엔지니어링에서 테스트 하네스 개념은 1970년대부터 존재했으며, 프로그램을 다양한 조건에서 실행하고 동작을 모니터링하는 테스트 환경을 의미했다.
- 전통적 소프트웨어는 정적이고 예측 가능해 같은 입력에 항상 같은 결과가 나왔으므로 별도의 하네스 엔지니어가 필요 없었다. 그러나 LLM은 환각을 일으키고, 컨텍스트를 잃고, 자신감 넘치게 틀리기 때문에 이 개념이 AI 시대에 완전히 새로운 의미를 갖게 되었다.
7. 핵심 철학: 구조적 불가능화 [06:55]
- 영상에서 가장 중요한 문장: 에이전트가 규칙을 어겼을 때 "더 잘해 봐"라고 프롬프트를 고치는 것이 아니라, 그 실패가 구조적으로 반복 불가능하도록 하네스를 고치는 것이다.
- AI가 프론트엔드 코드에서 DB를 직접 호출했을 때, 프롬프트에 "DB를 직접 호출하지 마라"를 추가하는 일반적 대응은 소용이 없다. 프롬프트는 부탁이지 강제가 아니기 때문이다.
- 하네스 엔지니어링은 아키텍처 테스트를 추가해 프론트엔드 폴더에서 DB를 임포트하려는 순간 빌드가 실패하도록 만든다. AI가 아무리 시도해도 그 실수가 구조적으로 불가능해진다.
- 비유하자면 말이 울타리를 넘으려 할 때 "넘지 마"라고 소리치는 게 아니라 울타리 자체를 더 튼튼하게 만드는 것이다.
8. 첫 번째 기둥: 기계가 읽는 컨텍스트 파일 [08:05]
- 하네스 엔지니어링의 첫 번째 요소는 기계가 읽는 컨텍스트 파일이다. CLAUDE.md, AGENTS.md, .cursorrules 같은 파일들이 여기에 해당한다.
- 이 파일들은 단순한 문서가 아니라 AI가 실행하는 런타임 설정 파일이다. 코드 저장소 안에 있고 AI가 작업을 시작할 때 가장 먼저 읽으며, 사람이 읽는 위키나 노션 문서와 본질적으로 다르다.
- 예컨대 .md 파일에 "새로운 라이브러리를 도입하지 마, 기존 API 패턴을 따라, DB는 반드시 ORM을 통해서만 접근해" 같은 규칙을 넣으면 AI가 이를 행동 제약으로 인식한다. 한 번 설정하면 모든 작업에 자동 적용된다.
- 하지만 규칙을 파일에 써 놓는 것만으로는 충분하지 않다. AI는 규칙을 읽고도 어길 수 있기 때문이다.
9. 두 번째 기둥: 시스템 자동 강제 [09:19]
- 두 번째 요소는 코드 린터, 구조적 테스트, 커밋 훅 등을 통해 규칙을 시스템이 자동으로 강제하는 것이다.
- "DB 스키마를 함부로 바꾸지 마"라고 문서에 써 놓는 것만으로는 부족하다. 대신 시스템 자체가 이를 막아야 한다.
- 린터가 규칙 위반 시 자동으로 에러를 띄우고, "이 폴더의 코드는 저 폴더의 코드를 임포트할 수 없다"는 아키텍처 제약을 테스트로 강제하는 방식이 그 예다.
10. 자동 교정 루프 — 하네스의 핵심 메커니즘 [10:02]
- 프리커밋 훅으로 코드 저장 전 자동 검사를 수행해 규칙을 시스템에 내장한다.
- 린터가 에러를 감지하면 에이전트가 스스로 코드를 수정하고 재시도하는 자동 교정 루프가 작동한다.
- 요리사가 칼을 뺄 때 자동 소독 타이머가 시작되는 것처럼, 규칙이 인간의 판단이 아닌 시스템에 의해 강제된다.
- 인간 개입 없이 에이전트가 스스로 방향을 바로잡는 구조가 하네스의 진짜 힘이다.
11. 도구 접근 제한 — 부탁과 차단의 차이 [11:02]
- 파일 시스템에서 소스 폴더는 읽기·쓰기 가능, 설정 폴더는 읽기 전용으로 세분화해 제약을 건다.
- 내부 API 호출은 허용하되 외부 서비스 호출은 불가능하게, DB는 SELECT만 가능하고 DROP TABLE은 차단하는 식이다.
- 터미널 명령도 화이트리스트 기반으로 제한해 위험한 명령의 실행을 원천 차단한다.
- "DB를 삭제하지 마"라는 프롬프트는 부탁이고, 도구적 경계는 어길 수 없는 물리적 차단이다.
12. 코드 베이스 품질 누적과 자동 청소 시스템 [12:10]
- 루프가 반복되면서 코드 베이스에 나쁜 패턴이 필연적으로 쌓이는 것이 진짜 위협이다.
- AI 에이전트가 기존 코드를 참고해 새 코드를 짤 때 나쁜 패턴이 있으면 "여기선 이렇게 하나 보다" 하고 그대로 복제한다.
- 마틴 파울러가 "가비지 컬렉션"이라 부른 것처럼, 코딩 규칙 위반 감지·중복 코드 발견·리팩토링 PR 자동 생성·데드 코드 제거·안티패턴 점검을 주기적으로 수행해야 한다.
- 에이전트가 실수할 때마다 그 실수는 새로운 린터 규칙, 테스트, 제약으로 변환되어 하네스가 진화적으로 정교해진다.
13. 하네스 시스템의 네 부품 — 라우터 [13:45]
- 하네스는 라우터, 컨텍스트 매니저, 실행 루프, 역할 격리 네 부품으로 구성된다.
- 라우터는 말의 고삐 방향 전환을 제한하는 분기기 역할로, 사용자 요청을 AI에게 바로 넘기지 않고 먼저 판별한다.
- 단순 질문인지 실질적 코드 작업인지 체크하고, 모호한 요청은 다시 물어보며, 명확한 작업만 하네스 루프로 보낸다.
- 엉뚱한 방향으로 달려가는 것을 출발 전에 차단하는 것이 라우터의 목적이다.
14. 컨텍스트 매니저와 실행 루프 [14:39]
- 컨텍스트 매니저는 가림막 역할로, AI에게 전체 코드가 아닌 작업에 필요한 파일과 규칙만 골라서 제공한다.
- "이 밭 전체를 갈아줘"가 아니라 지금 갈아야 할 구역만 보여주는 식의 정밀한 컨텍스트 공급이다.
- 실행 루프는 하네스의 심장으로, AI가 코드를 작성하면 자동 테스트를 돌리고 실패 시 에러 메시지를 피드백으로 재전달해 통과할 때까지 반복한다.
- 코드를 쓰는 AI와 검토하는 AI의 역할을 완전히 분리해야 품질이 보장된다.
15. 하네스 적용 예시 — 토스 API 결제 연동 [16:08]
- AI에게 "토스 API 결제를 연동해 줘"라고만 하면 검증되지 않은 약 200줄짜리 코드가 나온다.
- 하네스를 통하면 라우터가 요청을 걸러내고, 컨텍스트 매니저가 토스 SDK 문서 등 제약 사항을 제공한다.
- 실행 루프가 코드 생성 후 자동 테스트로 검증하므로, 사용자가 결과를 보기 전에 AI가 스스로 오류를 수정한다.
- 영상 설명란의 노션 링크에 수도 코드가 공개되어 있어 코드 레벨 상세 확인이 가능하다.
16. 오픈AI 실제 사례 — 하네스 관점 분석 [17:08]
- 2026년 2월, 오픈AI는 세 명 엔지니어가 AI 에이전트만으로 대규모 소프트웨어 제품을 만든 사례를 공식 블로그에 발표했다.
- 세 명은 직접 코드를 한 줄도 쓰지 않았으며, 가능했던 핵심은 모델 성능보다 하네스 엔지니어링에 있었다.
agents.md컨텍스트 파일로 AI 지침서를 미리 설계하고, CI/CD 게이트로 린트·테스트·훅 자동 검증 파이프라인을 구축했다.- 도구 경계로 AI 접근 권한을 설정하고, 피드백 루프로 AI가 직접 코딩·리뷰·규칙 보강을 반복하게 만들었다.
17. 하네스 엔지니어링 요약과 에이전틱 엔지니어링으로의 전환 [19:13]
- "프로젝트 전체를 AI가 실수할 수 없는 환경으로 만드는 것"이 하네스 엔지니어링의 한 문장 요약이다.
- 공장 안전 시스템처럼 규칙이 문서에 적혀 있는 게 아니라 어기면 시스템이 즉시 차단하는 구조다.
- "인간은 조종하고, 에이전트는 실행한다"에서 조종이 곧 하네스다. 고삐를 잡고 울타리를 세우는 것이 엔지니어의 역할이다.
- 하네스 구축 이후 에이전틱 엔지니어링 개념으로 자연스럽게 전환되며, 이는 말 자체를 훈련하는 기술과 유사하다.
18. 에이전틱 엔지니어링과 하네스의 관계 [20:00]
- 추론 루프 설정, 멀티에이전트 조율, 도구 사용법을 AI에게 가르치는 과정이 에이전틱 엔지니어링이다.
- AI가 실행하고 인간이 설계·검증·책임지는 규율 있는 협업 방식으로 정의된다.
- 말과 마구의 비유로 돌아가면: 훈련된 말도 마구 없이는 밭을 갈 수 없고, 마구도 말 없이는 의미가 없다.
- 에이전틱 엔지니어링(말 훈련)과 하네스 엔지니어링(마구 제작·시스템 설계)이 합쳐져야 비로소 결과가 나온다.
19. 인간 역할의 진화: 하네스 엔지니어의 등장 [21:04]
- 인간의 역할 변화를 네 축으로 정리한다: AI에 의도 전달 → 컨텍스트 엔지니어링(지식 체계 설계) → 하네스 엔지니어링(AI가 실수할 수 없는 환경 설계).
- AI가 나왔다고 코딩 능력이 불필요해지는 게 아니라, 더 높은 차원의 능력이 요구된다.
- 코드 한 줄 작성에서 시스템 전체 설계, AI 작업 환경 구축, 최종 책임으로 역할이 상향 이동하고 있다.
- 비개발자에게도 동일하게 적용된다: AI는 도구일 뿐이며 판단과 책임은 인간의 몫이다.
20. 하네스 엔지니어링의 실천 원리 [22:10]
- 기존 엔지니어링은 에이전트에 더 많은 힘과 능력을 부여하는 데 집중했다(컨텍스트, 스퀘어, MCP, 파이프라인 등).
- 하네스는 정반대 방향이다: 강력해진 에이전트를 어떻게 통제·컨트롤하여 원하는 결과를 이끌어낼 것인가가 핵심이다.
- 매번 틀렸다고 지적할 필요 없이, 규칙과 제한을 두어 애초에 잘못된 방향으로 가지 않게 만드는 것이 효율적이다.
- 잘못된 방향에 도달하더라도 동일한 실수가 반복되지 않도록, 인간 개입 없이 자동 교정되는 시스템 구축이 엔지니어링의 본질이다.
21. 핵심 메시지: 프롬프트가 아니라 하네스를 고쳐라 [23:01]
- AI 에이전트가 실수했을 때 프롬프트를 고치지 말고 하네스를 고쳐야 한다. 실패가 구조적으로 반복 불가능하도록 시스템을 바꾸는 것이 하네스 엔지니어링이다.
- 오픈AI의 표현을 인용한다: "인간은 조종하고, 에이전트는 실행한다."
- 인간의 역할은 직접 공을 차는 선수에서 전술을 짜고 팀을 운영하는 감독으로 한 단계 올라가는 것에 비유된다.
- 향후 하네스를 실제로 구축하는 실전 가이드 영상을 준비 중이며, 시청자에게 자신의 프로젝트에 어떤 형태의 하네스가 있는지 돌아볼 것을 권한다.
🧾 결론
- 하네스 엔지니어링의 본질은 **"프로젝트 전체를 AI가 실수할 수 없는 환경으로 만드는 것"**이다. 규칙이 문서에 적혀 있는 게 아니라, 어기면 시스템이 즉시 차단하는 구조여야 한다.
- 오픈AI 엔지니어 세 명이 코드 한 줄 직접 쓰지 않고 5개월 만에 소프트웨어 제품을 배포한 사례는, 모델 성능보다 하네스 설계가 결과를 결정한다는 것을 명확히 보여준다.
- 에이전트가 실수할 때마다 그 실수는 새로운 린터 규칙·테스트·제약으로 변환되므로, 하네스는 진화적 특성을 가지며 시간이 지날수록 정교해진다.
- 인간은 여전히 조종하고 설계하고 책임지는 주체다. "인간은 조종하고, 에이전트는 실행한다"는 명제에서 조종이 곧 하네스다.
📈 투자·시사 포인트
- AI 개발 도구 시장에서 "통제·거버넌스" 레이어의 부상: 컨텍스트 엔지니어링·MCP·프롬프트 최적화에 이어, AI 에이전트의 행동을 시스템 차원에서 강제하는 하네스 솔루션이 새로운 카테고리로 자리잡을 가능성이 크다. CI/CD 파이프라인·코드 품질 도구·AI 거버넌스 플랫폼 기업에게 유의미한 확장 기회다.
- 엔지니어 역할 재정의에 따른 교육·채용 시장 변화: 직접 코딩보다 아키텍처 설계·가드레일 구축·AI 환경 설계 능력이 핵심 역량으로 부상한다. 개발자 교육 커리큘럼과 채용 기준이 "프롬프트 스킬"에서 "하네스 설계 역량"으로 이동하는 전환점을 주목필요가 있다.
- 에이전틱 AI 도입 기업의 필수 전제조건: 멀티에이전트·자율 코딩 에이전트를 도입하려는 기업은 하네스 없이는 도입 자체가 리스크가 된다. 에이전틱 엔지니어링 투자에 앞서 하네스(컨텍스트 파일·자동 강제·실행 루프·역할 격리)를 먼저 갖추는 것이 성공 확률을 높이는 선행 투자다.
- 비개발자 영역으로의 확장 가능성: 하네스 사고방식은 코딩에만 국한되지 않는다. AI를 활용하는 모든 분야에서 "부탁이 아닌 강제" 구조를 설계하는 능력이 전문성의 핵심이 되며, 이는 AI 활용 교육·컨설팅 시장의 기준 변화를 예고한다.
⚠️ 불확실하거나 확인이 필요한 부분
- "마틴 파울러가 체계화한 하네스 엔지니어링의 정의"라고 영상에서 소개되지만, 파울러 본인이 이 용어를 공식 글에서 해당 정의로 사용했는지, 아니면 영상 제작자가 파울러의 기존 개념을 재해석한 것인지 원문 확인이 필요하다.
- 오픈AI 세 명 엔지니어가 2026년 2월 공식 블로그에서 발표했다는 사례의 정확한 블로그 포스트 URL과 제품 규모·복잡도에 대한 세부 정보가 영상에서 제공되지 않아 독립 검증이 필요하다.
- "코드 한 줄도 직접 쓰지 않았다"는 표현이 엄밀히 어디까지를 의미하는지 불명확하다. 하네스 자체—린터 규칙, 테스트 코드, CI/CD 설정 등—도 AI가 작성했다면 하네스 엔지니어의 실제 업무 경계가 모호해진다.
✅ 액션 아이템
- 오픈AI 공식 블로그에서 2026년 2월 세 명 엔지니어 사례 원문을 찾아 하네스 구축 세부—컨텍스트 파일 구성, CI/CD 게이트 구조, 도구 경계 설정—를 확인하고 요약해 둔다.
- 현재 프로젝트에서 AI 에이전트가 반복적으로 저지르는 실수 패턴을 목록화하고, 각 패턴을 프롬프트 수정 대신 아키텍처 테스트·린터 규칙·pre-commit 훅으로 전환할 수 있는지 점검한다.
- 기존 컨텍스트 파일(AGENTS.md, CLAUDE.md 등)을 "사람용 문서"에서 "런타임 강제 설정" 관점으로 재작성하여, 위반 시 빌드·테스트 실패로 이어지는 구조와 연동한다.
- 코드 작성 에이전트와 코드 리뷰 에이전트를 역할 격리하는 실행 루프를 설계하고, CI 파이프라인에 독립 리뷰 단계를 추가할 방안을 평가한다.
❓ 열린 질문
- 하네스의 네 기둥(컨텍스트 파일, 자동 강제, 자동 교정 루프, 도구 접근 제한)을 리소스가 제한된 소규모 팀에서 도입할 때, 어느 것부터 시작해야 가장 빠른 효과를 볼 수 있는가?
- 에이전트가 새로운 유형의 실수를 할 때마다 자동으로 린터 규칙·테스트를 생성하는 메커니즘을 어느 수준까지 자동화할 수 있는가? 인간 엔지니어의 판단이 반드시 필요한 임계점은 어디인가?
- 하네스가 과도하게 정교해지면 에이전트의 자율성과 창의적 문제 해결 능력이 억제될 위험이 있는데, 통제와 자율의 최적 균형을 어떻게 측정하고 조정할 것인가?