How to Make Claude Code Your AI Engineering Team
Quick Summary
Claude Code를 AI Engineering Team처럼 쓰려면 모델 자체보다 역할·리뷰·스킬·브라우저 자동화가 결합된 작업 구조가 핵심이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽

💡 한 줄 결론
Claude Code를 AI Engineering Team처럼 쓰려면 모델 자체보다 역할·리뷰·스킬·브라우저 자동화가 결합된 작업 구조가 핵심이다.
📌 핵심 요점
-
영상의 핵심 주장은 Claude Code 같은 코딩 에이전트를 단독 도구가 아니라 사람 팀처럼 역할, 프로세스, 리뷰, QA를 갖춘 AI 엔지니어링 팀으로 운영해야 한다는 것이다.
-
GStack은 얇은 실행 하네스와 두꺼운 스킬 구조를 통해 Office hours, CEO review, adversarial review, design shotgun, QA, ship 같은 단계별 역할을 Claude Code 워크플로우 안에 넣는다.
-
1099 세금 문서 앱 사례에서는 바로 구현부터 시작하지 않고, 실제 수요, 고통의 강도, 기존 대안, 사업 모델, 확장 가능성을 먼저 검증한 뒤 제품 방향을 재구성한다.
-
브라우저 자동화는 Gmail 검색, 은행 포털 접근, PDF 다운로드, CPA 전달 같은 비정형 업무를 사용자의 실제 브라우저에서 처리하게 해 민감 정보 위임 부담을 줄이고 실행 가능성을 높이는 방향으로 제시된다.
-
병렬 worktree, 다중 Claude Code 세션, 리뷰 루프, 자동 QA가 결합되면 기존 to-do list 중심 개발보다 훨씬 많은 기능 후보와 PR을 동시에 검토·착지시키는 소프트웨어 공장형 흐름이 가능해진다.
🧩 배경과 문제 정의
- 소프트웨어 개발은 에이전트가 실제 코드베이스에서 작업하는 단계로 이동했지만, 모델을 그대로 사용하면 맥락 부족과 추측 때문에 겉보기에는 그럴듯해도 조용히 깨지는 코드가 만들어질 수 있다.
- 핵심 병목은 모델의 지능 자체보다 역할, 프로세스, 리뷰, 도메인 맥락을 어떻게 제공하느냐에 있다.
- GStack은 얇은 실행 하네스와 두꺼운 스킬 구조를 바탕으로 Claude Code를 여러 전문 역할을 맡는 AI 엔지니어링 팀처럼 활용하려는 접근이다.
- 예시 과제는 Gmail과 금융기관에서 1099 세금 문서를 찾아 내려받는 앱으로, 단순 자동화를 넘어 사용자 고통, 사업성, 확장 가능성까지 함께 검증해야 한다.
🕒 시간순 섹션별 상세정리
1. 에이전트 시대의 핵심은 모델보다 팀 구조다 [00:09]
- Gary는 엔지니어, 창업자, YC CEO로서의 경험을 바탕으로, 소프트웨어 제작 방식이 에이전트 중심으로 이동하고 있다는 문제의식에서 출발한다
- 에이전트가 실제 업무를 안정적으로 수행하려면 사람 팀처럼 역할, 프로세스, 리뷰 체계가 필요하며, 단순히 모델에게 코딩을 맡기는 방식만으로는 일관된 결과를 얻기 어렵다
2. 모델의 추측을 줄이려면 얇은 하네스와 두꺼운 스킬이 필요하다 [01:52]
- 기본 모델은 프로젝트 데이터와 맥락이 부족하면 빈칸을 추측으로 채우고, 그 추측이 누적될수록 조용히 깨지는 코드가 만들어질 위험이 커진다
- 핵심 문제는 모델의 지능 부족이 아니라 설정과 작업 구조의 부족이며, 제대로 세팅된 모델은 이미 코드베이스 안에서 강한 실행력을 낼 수 있다
3. 1099 세금 문서 앱 아이디어가 Office hours 검증으로 들어간다 [02:48]
- Conductor의 quick start에서 GStack을 선택한 뒤, Gmail에서 1099 문서를 찾아주는 세금 앱을 예시 과제로 시작한다
- 이 앱은 이메일로 도착한 세금 문서를 찾는 데서 그치지 않고, 이메일이 오지 않는 은행의 경우 URL을 받아 금융기관 사이트에서 1099 PDF를 검색하고 다운로드해야 한다
4. 가장 중요한 검증 질문은 실제 수요와 고통의 강도다 [05:15]
- 첫 검증 질문은 누군가 실제로 이 제품을 원하는 가장 강한 증거가 무엇인지이며, 이는 프로젝트나 스타트업을 시작할지 판단하는 핵심 기준이 된다
- 여러 은행 계좌에서 1099 문서를 찾아야 하는 과정은 번거롭지만, 초기 고통은 벌금 같은 직접 손실보다는 회계사와의 마찰, 일정 지연, 반복적인 불편에 가깝다
5. 브라우저 자동화와 다중 모델 조합이 실행 계획을 구체화한다 [07:20]
- Office hours는 단순한 지시 실행이 아니라 사용자, 고통점, 비즈니스 모델, 작동 방식을 함께 점검하는 대화형 검증 흐름으로 작동한다
- 개선된 접근은 사용자가 직접 로그인한 브라우저에서 AI가 세금 문서 페이지를 찾아 1099 PDF를 다운로드하는 방식이다. Plaid나 저장된 자격 증명 없이도 진행할 수 있다는 점이 핵심이다
6. 브라우저 자동화가 세금 문서 수집 방식 자체를 바꾼다 [10:01]
- 초기 아이디어는 OAuth 기반 접근에서 출발하지만, Gmail을 직접 열어 1099 문서를 찾는 브라우저 자동화 방식이 더 강한 대안으로 부상한다
- 사용자의 이메일함에는 CPA가 요청한 계좌 정보와 세금 문서 단서가 이미 남아 있을 가능성이 높다. 이 정보는 필요한 은행 포털과 문서 목록을 좁히는 근거가 된다
7. 적대적 검토가 설계 문서의 약점을 자동으로 찾아 보완한다 [12:12]
- Office hours에는 feasibility 검토가 포함되며, 제품 아이디어가 실제로 작동 가능한지 강한 관점에서 압박하며 확인한다
- Opus 4.6은 멀티스텝 적대적 리뷰를 수행해 실패 처리, 개인정보 보호, 2FA handoff처럼 설계에서 빠진 요소를 찾아낸다
8. Design shotgun이 여러 UI 방향을 병렬로 만든다 [13:45]
- plan CEO review 이후에는 design shotgun으로 넘어가며, 핵심 화면인 main checklist dashboard를 중심으로 시각적 브레인스토밍이 시작된다
- 디자인 도구는 여러 AI 버전을 생성하고, 사용자가 선호하는 방향을 비교할 수 있도록 질문과 선택지를 제시한다
9. 친근한 카드형 진행 UI가 최종 방향으로 선택된다 [14:39]
- Option A는 은행, 1099 문서, 출처, 상태를 한눈에 보여주는 대시보드형 화면으로, 기술 사용자에게 강한 통제감을 준다
- Option B는 일반 사용자에게 더 친근한 카드 기반 구조와 진행 상태 중심 UI를 제공해, 복잡한 세금 문서 수집 과정을 덜 부담스럽게 만든다
10. 기획·리뷰·QA·배포가 병렬 소프트웨어 공장 흐름으로 확장된다 [16:07]
- office hours, plan CEO review, auto plan은 사용자가 세부 논의에 깊이 개입하지 않아도 CEO·엔지니어링·디자인·개발자 경험 관점의 기본 검토를 거치게 만든다
- 코드 작성 이후의 review는 staff-level 코드 리뷰처럼 버그를 찾고, plan mode에서 놓친 문제까지 다시 점검하는 품질 게이트 역할을 한다
11. 커뮤니티 수정 수용과 공급망 리스크가 함께 커진다 [20:01]
- 각 프로젝트에는 한두 개의 세션이 활성화되어 있으며, 커뮤니티에서 들어오는 오픈소스 수정 사항은 wave 단위로 평가한 뒤 반영한다
- AI 코딩 환경에서는 공급망 공격 위험이 커지기 때문에, 외부 기여를 빠르게 받아들이는 속도와 보안 검증 사이의 긴장도 함께 높아진다
12. 할 일 목록은 worktree 기반 작업 항목으로 대체된다 [20:24]
- 아이디어, 사용자 버그 리포트, X에서 발견한 불만이 생기면 Conductor의 plus icon으로 새 worktree와 새 작업 항목을 만든다
- 기존 to-do list는 사라지고, 문제 발견부터 구현 후보 생성까지의 흐름이 개별 작업 단위로 분리되어 병렬 처리된다
13. 리뷰 루프를 통해 대량 PR 처리가 가능해진다 [20:45]
- 각 작업 항목은 office hours, CEO review, end review, adversarial review를 거치며, 정해진 검토 프로세스 안에서 반영 여부가 결정된다
- 준비된 변경사항은 바로 land될 수 있고, 회의 수에 따라 하루 10개, 15개, 20개, 많게는 50개 PR까지 처리할 수 있는 운영 구조가 된다
14. GStack 공개와 빌더를 향한 결론 [21:05]
- GStack은 github.com/gritan/GStack에서 사용할 수 있으며,
/office hours를 실행하면 YC가 창업자에게 적용하는 제품 사고 방식에 가까운 pushback과 reframing을 먼저 받을 수 있다 - 소프트웨어 구축의 진입장벽은 크게 낮아졌고, 결국 핵심 질문은 무엇을 만들 것인가로 남는다. 중요한 것은 원하는 것을 실제 제품으로 만들어내는 실행력이다
🧾 결론
-
이 영상은 “더 똑똑한 모델을 고르면 된다”가 아니라, AI 코딩 시대의 경쟁력이 모델을 둘러싼 작업 구조 설계에 있다는 메시지를 강조한다.
-
Claude Code의 생산성을 높이는 핵심은 프롬프트 한 번이 아니라, 제품 검증, 설계, 구현, 적대적 리뷰, QA, 배포 전 점검을 반복 가능한 역할 체계로 만드는 데 있다.
-
1099 문서 수집 앱 사례는 AI 에이전트가 단순 코딩을 넘어 사용자 문제 정의, 사업성 검토, UI 방향 탐색, 실행 가능성 검증까지 함께 수행할 수 있음을 보여준다.
-
다만 AI가 생성한 설계와 코드는 실패 처리, 개인정보 보호, 2FA handoff, 공급망 공격 같은 리스크를 자동·수동 리뷰로 계속 압박해야 한다.
-
최종적으로 빌더에게 남는 질문은 “AI로 만들 수 있는가”보다 “무엇을 만들 가치가 있는가”에 가까워진다.
📈 투자·시사 포인트
-
AI 개발 도구 시장의 차별화 축은 단순 코드 생성 성능에서 역할 기반 워크플로우, 리뷰 자동화, QA 자동화, 브라우저 조작, 병렬 작업 관리로 이동하고 있다.
-
GStack 사례는 “AI 엔지니어 1명”보다 “AI 엔지니어링 팀 운영체제”에 가까운 제품 카테고리가 커질 수 있음을 시사한다.
-
스타트업 입장에서는 AI로 구현 속도가 빨라질수록 아이디어 검증, 사용자 고통의 강도, 유통·수익 모델 판단의 중요성이 더 커진다.
-
브라우저 자동화는 세금, 금융, 이메일, 백오피스처럼 로그인·문서·반복 작업이 얽힌 영역에서 큰 기회를 만들 수 있지만, 개인정보와 보안 검증이 핵심 제약이 된다.
-
오픈소스와 AI 코딩이 결합되면 PR 처리량은 늘어날 수 있지만, 외부 기여를 빠르게 받아들이는 속도와 공급망 공격 방어 사이의 긴장이 더 커진다.
⚠️ 불확실하거나 확인이 필요한 부분
- GStack이 “3주 만에 Ruby on Rails보다 더 많은 GitHub stars를 얻었다”는 언급은 영상 내 주장으로 보이며, 실제 GitHub star 수와 비교 시점은 별도 확인이 필요하다.
- Posterous 수준의 작업을 과거에는 “2년·1,000만 달러·10명”이 필요했지만 Claude Code로 훨씬 빠르게 재현했다는 비교는 발표자의 경험 기반 사례로 보이며, 객관적 생산성 지표로 일반화하려면 추가 검증이 필요하다.
- 1099 문서 수집 앱이 세금 준비 서비스나 세무 대리인 매칭으로 확장될 경우 거래 기반 수익이 더 클 수 있다는 판단은 전략적 가설이며, 실제 전환율·규제·고객 획득 비용 검증이 필요하다.
✅ 액션 아이템
- Claude Code나 유사 에이전트를 바로 코딩에 투입하기 전에 역할, 리뷰 단계, 실패 처리 기준, 도메인 맥락을 명시한 작업 구조를 먼저 설계한다.
- 새 제품 아이디어를 구현하기 전 “누가 실제로 원하는가”, “가장 강한 수요 증거는 무엇인가”, “기존 대안 대비 왜 지금 필요한가”를 검증하는 Office hours식 질문 목록을 만든다.
- 브라우저 자동화가 필요한 기능은 OAuth 방식, 사용자 직접 로그인 방식, 로컬 브라우저 관찰 방식의 보안·사용성·구현 난이도를 비교한다.
- AI가 만든 설계 문서는 구현 전에 실패 처리, 개인정보 보호, 2FA handoff, 공급망 리스크를 포함한 적대적 리뷰를 통과시키도록 한다.
❓ 열린 질문
- GStack의 핵심 가치는 Claude Code 자체의 성능 향상보다 “역할과 프로세스를 스킬로 패키징하는 방식”에 있는가?
- 1099 문서 수집 앱은 단독 제품으로 충분한 사업성이 있는가, 아니면 세금 준비·CPA 매칭으로 이어지는 퍼널일 때만 의미가 커지는가?
- 사용자 브라우저에서 금융기관 로그인과 PDF 다운로드를 자동화할 때, 어느 지점까지 AI가 조작하고 어느 지점부터 사용자가 직접 승인해야 안전한가?