Thin Harness, Fat Skills: The New Way To Build Software
Quick Summary
“Thin Harness, Fat Skills”의 핵심은 AI 개발 시대의 경쟁력이 거대한 에이전트 실행 장치를 새로 만드는 데서가 아니라, 얇은 하네스 위에 두꺼운 지시·절차·맥락의 스킬을 축적하는 데 있다는 점입니다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
“Thin Harness, Fat Skills”의 핵심은 AI 개발 시대의 경쟁력이 거대한 에이전트 실행 장치를 새로 만드는 데서가 아니라, 얇은 하네스 위에 두꺼운 지시·절차·맥락의 스킬을 축적하는 데 있다는 점입니다.
📌 핵심 요점
-
AI 코딩 도구는 개발 속도와 작업 범위를 크게 확장하지만, 중요한 순간에 고장 날 수 있으므로 사용자가 내부를 이해하고 통제할 수 있어야 한다는 문제의식이 반복된다.
-
Gary Tan은 오랜 코딩 공백 이후 AI 도구를 활용해 블로그 플랫폼, RAG, 에이전트형 리서치 시스템 등을 빠르게 구현했다고 설명하며, 개발 비용과 기간이 크게 줄었다고 주장한다.
-
GStack은 반복 프롬프트와 작업 절차를 마크다운 기반 skill로 축적하면서 발전했고, 계획 검토·제품 판단·테스트 강화·QA 같은 개발 루프를 구조화하는 방식으로 사용된다.
-
“thin harness, fat skills”는 LLM 실행 루프 자체는 얇게 유지하고, 실제 차별화는 사용자의 판단 기준, 절차, 예외 처리, 테스트 전략, 제품 감각을 담은 두꺼운 skill에 둬야 한다는 관점입니다.
-
영상은 AI가 인간을 완전히 대체한다기보다, 인간이 문제 정의·맥락 판단·제품 취향·최종 QA를 맡고 기계가 반복적이고 시간이 많이 드는 작업을 확장해주는 구조가 현실적이라고 봅니다.
🧩 배경과 문제 정의
- AI 코딩 도구는 사용자가 상상하기 어려운 문제까지 빠르게 처리할 만큼 강력해졌지만, 중요한 순간에는 여전히 고장 날 수 있으므로 사용자가 직접 이해하고 수정할 수 있어야 한다.
- 핵심 문제는 개발 과정의 통제권이 사용자에게 남아 있을지, 아니면 도구가 사용자의 작업 방식을 좌우하게 될지에 있다.
- Gary Tan은 오랜 투자자 활동 이후 다시 코딩에 복귀했고, 짧은 기간 안에 대규모 코드와 인기 오픈소스 프로젝트를 만들며 AI 도구 기반 개발 방식의 변화를 보여준다.
🕒 시간순 섹션별 상세정리
1. AI 도구의 폭발적 생산성과 통제 문제 [00:00]
- OpenClaw 같은 도구는 이전에는 기계가 처리하기 어렵다고 여겨졌던 작업까지 빠르게 수행한다
- 도구가 강력해질수록 사용자는 오류와 고장을 이해하고, 필요한 경우 직접 통제·수정할 수 있어야 한다
2. Gary Tan의 개발 복귀와 첫 문제의식 [00:47]
- Gary Tan은 오랜 투자자 활동 이후 다시 직접 만드는 빌더의 위치로 돌아왔다
- 그는 수개월 만에 대규모 코드와 인기 오픈소스 프로젝트를 만들며, AI 기반 개발 방식의 변화를 보여주는 사례가 된다
3. AI 재구현으로 개발 비용과 기간이 급감한 사례 [04:01]
- 과거 블로그 플랫폼을 구현하려면 큰 비용, 여러 명의 인력, 긴 개발 기간이 필요했다
- 이번에는 Claude Code Max 계정 비용과 며칠의 작업만으로 유사한 범위의 플랫폼을 다시 만들었다
4. 소프트웨어가 조사 노동까지 수행하는 변화 [05:50]
- Garry’s List는 단순한 글 발행 플랫폼을 넘어 조사, 독해, 주석 작업까지 수행한다
- 이는 소프트웨어가 도구 역할을 넘어 지식 노동의 일부를 대신하는 방향으로 확장되고 있음을 보여준다
5. Token maxing과 지식 노동의 확장 [08:00]
- 여러 출처와 상충되는 주장을 함께 입력하면 더 풍부한 판단과 비교가 가능해진다
- 충분한 컨텍스트를 프롬프트에 담는 방식은 기사 작성뿐 아니라 코드 작성에도 적용된다
6. 반복 프롬프트에서 GStack 패턴으로 발전 [10:07]
- GStack은 반복적으로 사용하던 계획, 아키텍처, 테스트 지시를 하나로 모으면서 시작됐다
- 작업 전에 데이터 흐름, 입출력, 상태, 의존성을 시각적으로 정리하면 모델의 작업 품질이 높아진다
7. 제품 기획 skill과 10배 가치 기준 [12:01]
- office hour skill은 새 제품이나 기능이 누구를 위한 것인지, 사용자가 실제로 원하는 것인지 점검하는 역할을 한다
- 이후 CEO plan으로 확장되며, 더 이상적인 사용자 경험을 먼저 상상하고 제품 방향을 잡는 방식으로 발전했다
8. Conductor 기반 대량 개발과 QA 병목 [14:22]
- skill을 반복 실행하면서 conductor 인스턴스에는 기능 아이디어와 작업이 빠르게 누적된다
- 짧은 시간 안에 여러 PR이 만들어지기 때문에, 구현 속도보다 검토와 QA가 더 큰 병목이 된다
9. GStack 안에서 기능 생성과 역할 분담이 결합된다 [16:00]
- Claude Code는 사용 중 느낀 불편함을 곧바로 새 기능 아이디어로 전환하게 만든다
- GStack은 CEO, 디자이너, 개발자 경험 담당, 디자인 도구 등 여러 역할을 하나의 작업 흐름 안에 결합한다
10. 인간의 맥락 판단과 브라우저 기반 QA가 핵심 루프가 된다 [18:19]
- GStack 흐름은 제품 검토, 디자인 검토, 개발자 리뷰, 최종 리뷰를 순차적으로 거친다
- 인간 운영자는 현재 맥락, 만들고 있는 대상, 필요한 판단 기준을 모델에 제공하며 루프를 조율한다
11. 인간 빌더의 역할과 “thin harness, fat skills” 문제의식 [20:01]
- 현 단계에서는 인간의 취향, 디자인 감각, 제품 피드백, 고객 이해가 여전히 핵심 역할을 한다
- AI 도구는 인간의 제품 판단과 결합될 때 단순 자동화를 넘어 실질적인 생산성으로 계속된다
12. 하네스는 얇게, 스킬은 두껍게 두는 엔지니어링 경계 [21:33]
- 하네스는 사용자 입력, LLM 호출, 도구 실행, 결과 순환을 맡는 최소한의 핵심 루프다
- 핵심은 절차, 판단 기준, 예외 처리 방식을 마크다운 skill에 두껍게 남겨 재현 가능한 작업 단위로 만드는 것이다
13. 강력하지만 직접 고쳐야 하는 초기형 에이전트 시스템 [24:00]
- latent space와 deterministic space가 함께 있는 시스템에서는 단위 테스트와 통합 테스트가 모두 필요하다
- 기계는 반복 작업 부담이 낮기 때문에, 더 높은 테스트 커버리지를 목표로 삼을 수 있다
14. 복사·붙여넣기 개발에서 자가 실행 에이전트로 이동 [25:52]
- Stack Overflow와 ChatGPT 방식은 사람이 검색, 복사, 실행, 피드백을 직접 반복해야 했다
- Claude Code 계열 도구는 실행과 결과 확인까지 에이전트가 맡는 방향으로 이동하며 개발 루프를 더 자동화한다
15. 기존 코드 지식이 새 에이전트 시스템의 출발점이 된다 [28:02]
- 큰 코드 코퍼스를 구축하는 과정에서 청킹, 임베딩, 하이브리드 검색, RAG 관련 지식이 함께 축적된다
- Gary’s List를 개발하며 얻은 경험은 이후 OpenClaw용 RAG 시스템을 설계하는 중요한 기반이 된다
16. 코드 생산성 논쟁은 직접 작성량보다 에이전트 지휘량으로 이동한다 [29:39]
- OpenClaw와 Claude Code를 사용하면서, 밤새 코딩하던 개발자적 몰입감이 다시 살아났다고 보여준다
- 생산성의 기준은 직접 작성한 코드 줄 수보다 AI 에이전트를 얼마나 효과적으로 지휘하고 활용했는가로 옮겨간다
17. AI 코딩 생산성 논쟁의 핵심은 완성 가능한 작업 범위다 [32:02]
- 기존 기준에서 보면 프로덕션 준비가 된 코드 생산량은 여전히 제한적일 수 있다고 본다
- 다만 AI 도구를 적극적으로 활용하면, 한 사람이 끝까지 완성할 수 있는 작업의 범위가 크게 넓어진다는 주장이 드러난다
18. 개인 AI는 개인 컴퓨터처럼 통제권의 문제를 다시 만든다 [34:16]
- OpenClaw나 Hermes가 아직 완전히 성숙하지 않았더라도, 개인별 AI 작업 흐름은 점차 보편화될 가능성이 있다
- 핵심은 자기 데이터, 통합 환경, 프롬프트, 정보 흐름을 스스로 통제할 수 있느냐에 있다
19. 토큰 비용은 절약 대상이 아니라 생산성 투자다 [36:00]
- 최신 모델을 제대로 활용하려면 많은 토큰 사용과 그에 따른 비용이 필요하다
- 이 비용은 단순한 지출이 아니라 더 큰 결과와 기회를 얻기 위한 생산성 투자로 읽힌다
20. 부족한 인간 시간을 기계 작업 시간으로 확장한다 [38:06]
- YC CEO 역할과 개발을 병행하는 상황에서는 실제로 코딩에 쓸 수 있는 시간이 매우 제한적이었다
- 따라서 사람이 직접 붙잡고 있어야 하는 시간을 줄이고, 기계가 대신 수행할 작업과 테스트 자동화의 중요성이 커진다
21. 같은 도구에서 출발하는 개발 가능성 [40:02]
- “팀이 코드 한 줄도 직접 쓰지 않는다”는 방식은 개인도 시도할 수 있는 개발 전략으로 드러난다
- 같은 프롬프트와 같은 노트북에서 시작할 수 있다는 점에서, AI 도구는 개발의 출발선을 더 평평하게 만든다
22. 기계의 시간을 빌리는 시대적 전환 [40:55]
- 마지막 결론은 기계의 시간을 빌려 인간의 생산 시간을 확장할 수 있다는 메시지로 압축된다
- 개발과 창작의 병목은 직접 만드는 시간 자체에서, 기계 시간을 얼마나 잘 배분하고 활용하느냐로 이동한다
🧾 결론
-
이 영상의 결론은 AI 코딩 시대의 핵심 역량이 단순히 모델을 호출하는 능력이 아니라, 모델이 잘 일하도록 맥락과 절차를 설계하는 능력으로 이동하고 있다는 것입니다.
-
하네스는 LLM과 도구 호출을 연결하는 기본 루프에 가깝고, 진짜 생산성은 반복 가능한 마크다운 지시문, 테스트 기준, 제품 판단 프레임워크, QA 루틴 같은 “두꺼운 스킬”에서 나온다고 정리할 수 있다.
-
인간의 역할은 사라지는 것이 아니라 더 상위의 판단으로 이동합니다. 무엇을 만들지, 왜 중요한지, 어떤 품질 기준을 적용할지, 언제 기계 결과를 의심해야 하는지를 정하는 역할이 중요해집니다.
-
다만 영상 속 비용 절감, 생산성 배수, 코드 생산량, 도구 성숙도에 대한 수치는 발표자의 경험과 주장에 기반한 내용이며, 일반화하려면 별도 검증이 필요하다.
📈 투자·시사 포인트
-
AI 개발 도구 시장에서는 모델 자체뿐 아니라, 모델을 실제 워크플로에 연결하는 하네스, QA 자동화, 브라우저 테스트, 컨텍스트 관리, RAG 기반 코드 이해 시스템의 중요성이 커질 수 있다.
-
단순한 코드 생성기보다 “반복 가능한 skill 라이브러리”와 “조직의 개발 판단을 문서화·실행화하는 시스템”이 더 큰 차별화 요소가 될 가능성이 있다.
-
스타트업 관점에서는 토큰 비용을 단순 비용으로만 볼 것이 아니라, 인간 시간이 부족한 상황에서 기계 작업 시간을 구매하는 생산성 투자로 볼 수 있다는 메시지가 제시된다.
-
투자 관점에서 검증이 필요한 지점은 발표자가 언급한 400배 생산성, 5일 구현, 저비용 리서치 자동화 같은 사례가 특정 개인·환경·도구 숙련도에 의존한 결과인지, 더 넓은 팀과 산업에서도 재현 가능한지입니다.
-
장기적으로는 개인 AI, 개인 컨텍스트 저장소, 자기 데이터 기반 에이전트 운영 환경이 개인 컴퓨터처럼 통제권의 문제를 다시 만들 수 있으며, 사용자 주권형 AI 도구가 중요한 흐름으로 부상할 수 있다.
⚠️ 불확실하거나 확인이 필요한 부분
- Gary Tan이 “수개월 동안 수십만 줄의 코드”를 만들었고 “GitHub에서 10만 개 이상의 스타”를 얻었다는 수치는 영상 속 주장으로 보이며, 실제 저장소·스타 수·기간은 별도 확인이 필요하다.
- 블로그 플랫폼 재구현 비용이 과거 약 400만 달러에서 이번에는 Claude Code Max 약 200달러와 5일로 줄었다는 비교는 맥락상 강한 사례 제시이지만, 범위·기능 동등성·인건비 포함 여부는 확인되지 않았다.
- Garry’s List가 고품질 탐사 저널리스트 수준의 조사·독해·주석 작업을 5~10달러 수준의 모델 호출 비용으로 수행한다는 평가는 정량 검증된 사실이라기보다 발표자의 경험 기반 주장에 가깝다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- AI 코딩 워크플로를 설계할 때 하네스 자체를 새로 만들기보다, 반복 가능한 지시·절차·판단 기준을 Markdown skill로 먼저 축적한다.
- 새 기능 개발 전에는 제품 목적, 대상 사용자, 기대 효과, “2배 노력으로 10배 가치” 가능성을 점검하는 기획 skill을 만든다.
- 구현 전에는 데이터 흐름, 입출력, 사용자 흐름, 에러 상태, 의존성 관계를 ASCII 다이어그램이나 구조화 문서로 정리한다.
- AI가 만든 코드에는 단위 테스트, 통합 테스트, end-to-end 테스트를 붙이고, 현실적으로 80~90% 수준의 신뢰 가능한 커버리지를 목표로 한다.
❓ 열린 질문
- “thin harness, fat skills” 접근이 장기적으로 유지보수 비용을 얼마나 줄이는지, 반대로 skill 문서가 비대해질 때 어떤 관리 문제가 생기는지 확인이 필요하다.
- AI 에이전트가 만든 코드의 생산성을 코드 줄 수가 아니라 실제 배포 가능한 기능 수, 버그율, QA 시간, 사용자 가치로 어떻게 측정할 수 있을까?
- 인간이 루프 안에 남아야 하는 판단 지점은 어디까지이며, 어떤 조건이 충족되면 일부 단계는 완전히 자동화해도 안전할까?