YouTubeSequoia Capital·2026년 6월 11일·0

Google DeepMind''s Logan Kilpatrick: Why the Model Eats the Harness

Quick Summary

“Why the Model Eats the Harness”의 핵심은 Gemini와 Antigravity가 보여주듯, 에이전트 하네스가 제품 실행 레이어로 커지다가 결국 모델 내부 기능으로 흡수되며 AI 제품의 차별화 지점이 이동한다는 것이다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

Google DeepMind''s Logan Kilpatrick: Why the Model Eats the Harness 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Google DeepMind''s Logan Kilpatrick: Why the Model Eats the Harness 내용을 설명하는 본문 이미지

💡 한 줄 결론

“Why the Model Eats the Harness”의 핵심은 Gemini와 Antigravity가 보여주듯, 에이전트 하네스가 제품 실행 레이어로 커지다가 결국 모델 내부 기능으로 흡수되며 AI 제품의 차별화 지점이 이동한다는 것이다.

📌 핵심 요점

  1. Google은 Gemini를 여러 제품을 잇는 공통 모델 레이어로 확장한 데 이어, Antigravity 기반 에이전트 하네스를 Search, Gemini 앱, Cloud, AI Studio 등 제품 전반의 실행 기반으로 넓히고 있다.
  2. 에이전트 확산은 검색·광고·사용 시간 같은 기존 비즈니스 모델을 잠식할 수 있다는 우려를 낳지만, 대화에서는 인간과 에이전트가 모두 검색을 수행하면서 오히려 검색 활동과 생태계 가치가 늘어날 가능성이 제시된다.
  3. Google 제품의 에이전트화는 아직 급격한 자율 실행 단계라기보다 “crawl” 단계에 가깝고, 10억 명 규모 제품을 다수 운영하는 책임 때문에 사용자의 통제감을 유지하는 점진적 전환이 강조된다.
  4. 코딩 에이전트는 현재 가장 강력한 적용 영역으로, DeepMind 내부의 dogfooding, 토큰 사용량 증가, 대규모 엔지니어 피드백 루프가 Gemini 코딩 성능 개선과 장기 실행 에이전트 발전의 핵심 동력으로 설명된다.
  5. 장기적으로는 검색, 코드 실행, 에이전트 도구 호출, 하네스 같은 외부 scaffolding이 모델 시스템 안으로 흡수될 수 있으며, 이 경우 스타트업과 애플리케이션 기업의 차별화는 하네스 구현 자체보다 도메인 전문성, 고객 이해, 위험 감수 능력으로 이동한다.

🧩 배경과 문제 정의

  • 생성형 AI는 단순한 답변 생성을 넘어, 영상 편집·코딩·검색·소비자 제품 안에서 실제 행동을 수행하는 방향으로 확장되고 있다.
  • Google 내부에서는 Gemini가 여러 제품을 잇는 공통 AI 레이어로 자리 잡은 뒤, Antigravity 기반 에이전트 하네스가 제품 전반을 연결하는 새로운 축으로 부상하고 있다.
  • 에이전트가 사용자를 대신해 검색, 이메일, 코딩, 쇼핑 같은 작업을 수행하게 되면 기존 제품의 사용 시간, 광고 모델, 가치 포착 방식도 달라질 수 있다.
  • 대규모 사용자 제품에서는 자율성을 빠르게 높이기보다, 사용자가 통제감을 유지할 수 있도록 단계적으로 전환하는 책임이 중요하다.

🕒 시간순 섹션별 상세정리

1. 생성형 영상 편집의 미묘한 현실 이해

  • Omni로 실시간 편집된 무대 영상에는 개가 등장하고, 다른 게스트들이 이를 보고 웃으며, 대화 흐름 안에서 자연스럽게 반응하는 장면이 구현됐다 [00:28]
  • 편집된 개가 무대에 올라와 무릎에 앉고, 말하는 사람이 이를 인지하면서도 발화를 이어가는 복합적 상호작용까지 자연스럽게 처리됐다 [00:43]

2. Agentic Gemini era와 Google 제품의 공통 실행 레이어

  • Google IO 직후 Agentic Gemini era가 핵심 화두로 떠올랐고, Gemini 2.0 때 제시된 에이전트 방향은 Gemini 3.5 시대에 실제 제품 흐름으로 자리 잡기 시작했다 [01:47]
  • Gemini가 Google의 수십 개 제품을 관통하는 공통 모델 레이어가 됐다면, Antigravity 에이전트 하네스는 각 제품을 에이전트 네이티브 방식으로 다시 연결하는 실행축이 된다 [02:20]

3. Antigravity 생태계와 에이전트 하네스의 범용화

  • Antigravity는 단일 IDE가 아니라 코어 IDE, 웹 기반 에이전트 우선 경험, CLI, SDK, Gemini API 기반 관리형 에이전트까지 포괄하는 개발자 생태계다 [03:11]
  • 같은 하네스가 Search, Gemini 앱, Cloud, AI Studio의 에이전트 기능에도 적용되며, 코딩 도구를 넘어 Google 제품 전반의 실행 기반으로 확장된다 [03:40]

4. 에이전트 확산과 기존 비즈니스의 잠식 문제

  • AI가 질문에 직접 답하면 검색에 부정적일 것이라는 초기 우려와 달리, 실제로는 검색 사용과 활동량이 늘며 검색 생태계에 긍정적 효과가 나타났다 [05:46]
  • 인간뿐 아니라 에이전트도 검색을 수행하면서 새로운 시장이 함께 열렸고, 생태계 전체의 가치 창출 관점에서는 플러스섬 가능성이 커졌다 [06:11]

5. 현재 Google 제품의 에이전트 수준과 점진적 전환

  • 코딩 에이전트가 데이터베이스나 인프라 선택까지 대신하듯, 향후 쇼핑 같은 영역에서도 에이전트가 선택과 실행을 대리하는 흐름이 확장될 수 있다 [07:21]
  • SEO와 생성형 엔진 최적화는 완전히 별개의 변화라기보다 기존 흐름 위에 겹쳐지는 전환에 가깝고, 광고와 가치 포착 방식도 예상보다 덜 급진적으로 바뀔 가능성이 있다 [07:54]

6. 범용 AI 인터페이스보다 전문 제품 분화가 사용자 부담을 줄인다

  • 하나의 제품이 모든 일을 처리하면 사용자는 원하는 결과를 끌어내기 위해 더 많은 정신적 에너지와 시간을 써야 하지만, 일정 앱처럼 목적이 분명한 제품은 별도 조작 없이 필요한 정보를 바로 제공한다 [10:21]
  • 슬라이드 덱이 오래 유지된 이유는 정보가 항상 같은 위치에 놓인다는 안정성에 있으며, 인간은 생성형 인터페이스의 유연성보다 예측 가능한 배치에 익숙하다 [11:06]

7. 코딩 밖 에이전트는 아직 약하지만 장기 작업 지표가 빠르게 올라간다

  • agentic AI가 코딩 에이전트에서만 작동한다는 평가는 “작동”의 기준에 따라 달라지며, 모델 품질이 임계치를 넘지 못한 복잡한 도메인에서는 아직 업무를 온전히 맡기기 어렵다 [12:17]
  • OpenRouter의 총 토큰 소비량은 세계에 투입되는 모델 지능의 증가세를 보여주며, 여기에 평균 에이전트 실행 시간이나 평균 작업 길이도 중요한 측정 지표가 된다 [12:38]

8. 장기 실행 코딩 에이전트는 DeepMind의 핵심 가속 장치다

  • 장기 실행 에이전트는 DeepMind의 여러 베팅 중 중요한 축이며, 특히 코딩 에이전트는 강력한 코딩 모델을 보유할 때 사업 전반을 가속하는 수단이 된다 [13:49]
  • 개발자 사이에서 Claude와 Codex 사용이 두드러지는 반면 Gemini 사용 언급은 상대적으로 적고, 이는 Google이 코딩 프런티어를 더 빠르게 밀어붙여야 하는 과제로 남아 있다 [14:26]

9. 내부 사용량과 학습 단계가 Gemini 코딩 성능 개선의 기반이 된다

  • Google 내부의 토큰 소비 증가는 코딩 제품과 모델 개선을 위한 사용 엔진이 실제로 작동하고 있음을 보여준다. 모델 진전에는 시간이 걸리지만, 내부 핵심 인력은 코딩 성능 향상에 집중하고 있다 [16:16]
  • Gemini 3 Flash는 가격 논의와 별개로, 코딩 능력 면에서 이전 어떤 Pro 모델보다 나은 Flash 모델로 평가된다. 이는 내부 작업의 성과가 성능 개선으로 나타나기 시작한 사례다 [16:50]

10. Dogfooding과 내부 피드백 루프가 코딩 모델의 자기강화 가능성을 만든다

  • DeepMind 구성원은 생태계 변화를 이해하기 위해 다른 모델과 제품도 써야 하지만, Gemini 모델 역시 반드시 사용해야 한다. 이 내부 사용이 지속적인 피드백 플라이휠을 만든다 [18:12]
  • Google과 DeepMind의 10만 명 이상 엔지니어가 모델을 사용하고 피드백을 제공하면, 대규모 실험과 AB 테스트를 통해 모델 개선 신호가 축적된다. 이는 Google의 구조적 경쟁 우위가 될 수 있다 [18:43]

11. 코딩 에이전트가 앱 개발 속도와 개발자 역할을 바꾼다

  • 안티그래비티를 활용한 모바일 앱 개발과 Gemini macOS 앱 사례는 Google 내부 팀들이 이전보다 훨씬 빠르게 실제 앱을 끝까지 만들고 출시하는 흐름을 보여준다 [20:04]
  • 현재 코드 작성 능력은 매우 강력해 ‘좁은 초지능’처럼 느껴질 정도다. 범용 AGI 논의가 코드 영역에서 이미 나타나는 실질적 영향력을 가리지 않도록 균형 있게 봐야 한다 [20:44]

12. 다음 초지능 후보는 검증 가능한 영역에서 먼저 나온다

  • 코드처럼 결과 검증이 쉬운 분야에서는 성능 향상이 더 빠르게 나타날 가능성이 크다. 수학·금융·과학은 이 조건을 어느 정도 갖춘 다음 후보로 거론된다 [23:12]
  • 과학처럼 세계에 긍정적 영향을 줄 수 있는 영역에서 AI 성과가 초기에 나타나면, 사람들은 기술이 가져올 잠재적 이익을 더 빨리 이해할 수 있다 [23:37]

13. 비디오게임 바이브 코딩은 가까워졌지만 제품 스캐폴딩이 병목이다

  • 2025년 말까지 누구나 비디오게임을 바이브 코딩할 수 있다는 전망은 AAA급 게임까지 뜻하지는 않는다. 다만 그 가능성은 이전보다 훨씬 가까워진 상태로 평가된다 [24:29]
  • 3JS 같은 도구는 가능성을 넓혔지만, 스프라이트 생성·모델 한계·오케스트레이션 레이어·도구 연결처럼 코딩 에이전트만으로는 매끄럽게 해결되지 않는 경계가 남아 있다 [24:54]

14. 게임은 AI 연구 문화와 AGI 평가의 테스트베드가 된다

  • Google DeepMind에는 게임과 AI의 연결이 강하게 남아 있으며, Demis Hassabis의 경력 배경도 게임을 AI 연구의 중요한 출발점으로 만든다 [26:36]
  • Kaggle과 GDM의 AI 벤치마킹 작업은 게임 아레나를 통해 AGI 진전에 얼마나 가까워졌는지를 테스트한다. 이때 게임은 단순 오락이 아니라 능력 평가의 프록시가 된다 [26:49]

15. 단기 게임 제작은 월드 모델보다 게임 엔진과 코딩 에이전트 조합이 유리하다

  • 바이브 코딩 게임의 경로는 게임 엔진과 코딩 에이전트 기반일 수도, 월드 모델 기반일 수도 있다. 다만 앞으로는 두 범주의 정의가 서로 흐려질 가능성이 크다 [28:01]
  • 월드 모델을 실제 사용 사례에 맞게 반복적으로 쓰려면 개방형 생성 능력만으로는 부족하다. 현실적인 결과를 만들도록 제약하고 안내하는 스캐폴딩이 필요하다 [28:37]

16. 월드 모델과 비디오 모델의 경계가 단일 모델 쪽으로 이동한다

  • 전통적 월드 모델은 action-conditioned video model에 가까웠고, 실시간 온라인 월드 모델은 비용이 매우 높아 확장성이 낮았다 [30:15]
  • 현재의 월드 모델은 엄밀한 action-conditioned video model이라기보다 세계에 대한 이해를 가진 모델에 가깝다. 비디오 모델도 같은 사용 사례의 일부를 수행할 수 있다 [30:28]

17. Omni의 첫 활용처는 비디오 편집이며, 품질 성숙도에 따라 기능 공개가 달라진다

  • Omni Flash의 첫 반복은 비디오 편집 기능에서 가장 잘 작동하고, 다른 모달리티도 기술적으로 가능하지만 품질이 최고 수준이 아니라 아직 공개되지 않았다 [32:02]
  • 단일 Omni 모델은 고객과 개발자에게 여러 모델을 조합하는 부담을 줄이며, 향후 더 강력한 버전이 나오면 멀티모달 생성의 적용 범위가 넓어진다 [32:21]

18. 생성 미디어의 가치가 사람 대체보다 맥락 증폭에 놓인다

  • 콘텐츠 제작에서 시각적 요소는 내용만큼 중요하며, 시청자의 첫 주목을 끌기 위해 배경·구도·시각적 장치가 큰 역할을 한다 [33:50]
  • 개인 콘텐츠에서는 목소리, 말, 얼굴, 이미지가 진정성과 연결되고, AI 아바타가 사람 자체를 대체하면 그 진정성이 약해질 수 있다 [34:06]

19. AI Studio의 Android 앱 생성은 개인용 소프트웨어 제작을 현실화한다

  • AI Studio는 Google 생태계의 여러 제품 접점을 하나로 모아, 스타트업 제작이나 아이디어 구현 과정에서 아홉 개 UI를 오가는 부담을 줄이는 방향을 갖는다 [35:33]
  • Android 앱 생성은 기존에 앱을 만들지 않았을 사람도 모바일 앱을 만들게 하며, 실제로 AI Studio 안에서 첫 Android 앱을 만든 사례가 나온다 [36:08]

20. 네이티브 앱의 맥락과 모델 시스템의 확장이 하네스를 흡수한다

  • 웹은 강력하지만 운영체제에는 웹으로 풀기 어려운 네이티브 풍부함이 있고, 메시징 경험처럼 OS에 깊게 들어간 인터페이스가 AI 채팅 앱보다 자연스럽게 느껴질 수 있다 [37:48]
  • 사용자는 이미 운영체제의 상호작용 방식에 조건화되어 있어, 별도 AI 앱보다 기존 문자 앱 안에서 AI와 대화하는 경험이 더 만족스러울 수 있다 [38:09]

21. 모델이 하네스를 흡수하면서 차별화 지점이 이동한다

  • 검색과 코드 실행처럼 모델이 원래 외부 도구에 의존하던 기능을 네이티브로 다루기 시작하면서, 현재의 에이전트 하네스도 12개월 뒤에는 상당 부분 모델 내부로 upstream될 가능성이 크다 [40:00]
  • 지금은 많은 팀이 자체 하네스를 알파의 원천으로 보지만, 모델이 하네스 기능을 기본 수행하게 되면 차별화의 중심은 하네스 구현이 아니라 다른 계층으로 이동한다 [40:13]

22. 스타트업의 기회는 도메인 집중과 위험 감수에서 나온다

  • 모델 기업이 더 많은 기능을 흡수하더라도 애플리케이션 계층의 기회는 줄지 않았으며, capability overhang과 모델 회사가 다루기 어려운 일반 문제 바깥에는 여전히 큰 가치가 남아 있다 [41:36]
  • 특정 버티컬의 전문성, 고객 이해, 생태계 지식은 스타트업이 대형 모델 랩보다 빠르게 움직일 수 있는 기반이며, 집중력 자체가 스타트업의 핵심 강점이다 [42:14]

23. Google DeepMind 문화는 집중 포트폴리오와 문제 해결 방식으로 형성된다

  • GDM 내부에는 많은 일이 동시에 벌어지는 혼란과 흥미가 공존하며, 포트폴리오 전체로는 강하지만 특정 영역에서 투자가 덜 이뤄질 경우 다른 랩이 앞서는 순간도 생긴다 [43:53]
  • 격차가 생긴 영역에서는 똑똑한 사람들을 모아 문제를 푸는 방식이 작동하며, 초기 DeepMind의 strike 방식과 유사한 문제 해결 문화가 계속 계속된다 [44:57]

24. DeepMind는 연구소이면서 Google 제품군의 엔진룸 역할을 맡는다

  • DeepMind는 Google의 “엔진룸” 같은 위치에 있으며, 깊은 연구소 문화와 Android·Google Cloud·Gmail·Workspace 등 전사 파트너와의 협업이 함께 존재한다 [47:20]
  • 연구뿐 아니라 Gemini를 최전선 고객과 제품에 실제 배포하는 적용형 작업도 대규모로 진행되며, 이는 순수 연구 조직만으로는 감당하기 어려운 운영 문제를 만든다 [47:48]

25. 개발자에게 닿는 진정성 있는 Google 서사가 필요하다

  • Google의 마케팅·커뮤니케이션 조직은 Google을 보호하고 올바른 이야기를 전달하며 나쁜 결과를 막는 역할을 맡고, 개발자에게 공감되는 이야기를 시도할 수 있는 협업 기반을 제공한다 [48:37]
  • 트윗을 매번 승인받지 않아도 되는 문화는 긍정적으로 작동하지만, 그 자유는 커뮤니케이션 팀과 쌓아온 신뢰와 goodwill을 훼손하지 않는 범위 안에서 유지되어야 한다 [49:14]

26. 인간적인 접근과 핵심 문제의식

  • 진행자와 Josh의 작업에는 진정성 있는 인간적 감각이 담겨 있으며, 이 접근은 “우리 시대의 가장 중요한 문제”를 다루는 태도와 연결된다 [50:00]
  • 감사 인사가 오가며, 기술 논의의 핵심이 단순한 도구 성능이 아니라 중요한 문제를 사람 중심으로 어떻게 다룰 것인가에 있다는 맥락이 남는다 [50:09]

27. 에이전트·코딩·월드 모델까지 확장된 대화의 마무리

  • 대화는 에이전트, 코딩, 월드 모델, 하네스, Google DeepMind 문화까지 폭넓게 이어졌고, 각 주제에서 실질적인 단서들을 남겼다 [50:10]
  • Logan은 대화가 즐거웠다고 말하며, 사람들이 이 논의를 바탕으로 어떤 결과물을 만들어낼지 기대한다는 말로 대화를 마무리했다 [50:24]

🧾 결론

  • 이 대화는 Google DeepMind가 단순히 더 좋은 모델을 만드는 조직을 넘어, Gemini를 실제 Google 제품군에 배포하고 Antigravity 같은 에이전트 실행 환경을 통해 제품 구조 자체를 바꾸려는 흐름을 보여준다.
  • “모델이 하네스를 먹는다”는 표현은 현재 별도 도구·검색·코드 실행·에이전트 오케스트레이션으로 존재하는 기능들이 시간이 지나며 모델 시스템의 기본 능력으로 들어갈 수 있다는 관점을 압축한다.
  • 다만 모든 것이 하나의 범용 AI 인터페이스로 즉시 통합되기보다는, 사용자의 인지 부담을 줄이기 위해 일정 앱, 메시징, 코딩 도구, AI Studio처럼 목적이 분명한 전문 제품 형태가 당분간 유지될 가능성이 크다.
  • 코딩은 결과 검증이 쉽고 피드백 루프가 빠르기 때문에 에이전트 성능 향상이 먼저 두드러지는 영역이며, 수학·금융·과학처럼 검증 가능한 분야가 다음 후보로 언급된다.
  • 검증 필요: Gemini 3.5, Gemini 3 Flash, Omni Flash, AI Studio의 Android 앱 35만 개 생성 등 구체적 제품명·수치·출시 상태는 입력 transcript 요약에 포함된 발언이지만, 외부 사실 확인 없이 일반 사실로 확정해서는 안 된다.

📈 투자·시사 포인트

  • AI 인프라와 모델 경쟁의 초점은 단순 모델 성능에서 에이전트 실행 시간, 평균 작업 길이, 도구 호출, 제품 내 배포 경험, 내부 피드백 루프 같은 운영 지표로 넓어질 가능성이 있다.
  • 애플리케이션 스타트업의 기회는 모델 기업이 흡수하기 어려운 특정 버티컬 도메인 지식, 고객 워크플로 이해, 규제·생태계 맥락, 그리고 대기업보다 빠른 위험 감수에서 나온다.
  • 코딩 에이전트는 개발자 생산성을 높이는 보조 도구를 넘어, 개인 개발자와 소규모 팀이 더 큰 제품을 시도하게 만드는 “ambition 확장 장치”로 작동할 수 있다.
  • 검색과 광고 시장은 AI 답변으로 단순히 축소된다고 보기보다, 인간 검색과 에이전트 검색이 함께 늘어나는 새 수요 구조로 재편될 수 있다는 관점이 제시된다.
  • 생성 미디어에서는 사람 자체를 대체하는 아바타보다, 원본 인물의 목소리와 진정성은 유지하면서 배경·세트·맥락을 증폭하는 편집 도구가 더 실용적인 초기 가치로 보인다.
  • 검증 필요: 에이전트가 검색 활동을 늘렸다는 Google 내부 관찰, AI Studio 앱 생성 수치, Gemini 코딩 성능 개선 폭은 투자 판단에 쓰기 전에 독립 데이터와 제품 사용 지표로 추가 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

  • Antigravity가 Search, Gemini 앱, Cloud, AI Studio 등 Google 제품 전반의 공통 에이전트 하네스로 쓰인다는 설명은 발화 내용에 근거하지만, 실제 내부 아키텍처 범위와 제품별 적용 수준은 별도 확인이 필요하다.
  • AI 답변과 에이전트 검색이 기존 검색 사용량을 늘렸다는 주장은 인터뷰 내 발언으로 정리할 수 있으나, 구체적 지표·기간·측정 방식은 transcript만으로 검증되지 않는다.
  • “Gemini 3 Flash가 이전 어떤 Pro 모델보다 코딩 능력이 좋다”는 평가는 발화자의 주장으로 보이며, 독립 벤치마크나 동일 조건 비교 결과는 별도 확인이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • Antigravity를 “단일 IDE”가 아니라 IDE·웹 경험·CLI·SDK·관리형 에이전트를 포함한 생태계로 이해하고, Google 제품 전반의 실행 레이어 관점에서 추적한다.
  • 에이전트 제품을 평가할 때 단순 응답 품질뿐 아니라 평균 실행 시간, 장기 작업 성공률, 도구 호출 안정성, 사용자 통제감 유지 여부를 함께 본다.
  • AI 검색·에이전트 검색이 기존 검색·광고·SEO에 미치는 영향을 판단할 때, “대체”보다 “기존 흐름 위에 겹쳐지는 변화” 가능성을 우선 가설로 둔다.
  • 코딩 에이전트 도입 시 개발자 대체 여부보다 개발자가 더 큰 문제를 시도할 수 있게 되는 agency 확대 효과를 측정한다.

❓ 열린 질문

  • Google 제품군에서 Antigravity 기반 하네스가 실제로 어디까지 공통화되어 있고, 제품별로 어떤 부분이 별도 최적화되어 있을까?
  • 에이전트가 검색과 쇼핑을 대신 수행할 때 광고, 추천, SEO, 생성형 엔진 최적화의 가치 포착 방식은 얼마나 바뀔까?
  • 장기 실행 에이전트의 성능을 가장 잘 보여주는 핵심 지표는 평균 작업 시간, 성공률, 토큰 소비량, 사용자 개입 횟수 중 무엇일까?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.