The Two Harvard Dropouts Who raised $800M to take on NVIDIA

🖼️ 인포그래픽

The Two Harvard Dropouts Who raised $800M to take on NVIDIA 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

하버드 중퇴 창업자들이 NVIDIA에 도전한 핵심은 “더 빠른 칩” 하나가 아니라, 추론 시대의 토큰 생산량을 랙·인터커넥트·전력·공급망까지 다시 설계해 10배 개선을 노리는 시스템 베팅이다.

📌 핵심 요점

추론 시장의 본질은 토큰을 얼마나 싸고 빠르고 많이 생산하느냐에 있으며, 영상은 이를 향후 AI 기업 가치와 데이터센터 경쟁력의 핵심 변수로 본다.
Etched의 접근은 범용 GPU의 기존 제약을 그대로 받아들이지 않고, prefill과 decode라는 추론 워크로드에 맞춰 전압, 열, 메모리 대역폭, 칩 간 지연시간을 재정의하는 것이다.
prefill에서는 광고용 peak FLOPs보다 실제 워크로드에서 쓰이는 FLOPs와 열 제어가 중요하고, decode에서는 단일 칩보다 클러스터 전체 메모리와 인터커넥트 효율이 병목으로 제시된다.
제품은 칩 하나가 아니라 랙, 보드, 전력 공급, 콜드플레이트, 인터커넥트, 생산라인까지 포함한 추론용 전체 시스템이며, 속도와 수직 통합이 운영 원칙으로 반복된다.
젊은 창업자와 반도체 경험 부족이라는 회의론은 컸지만, 기능 시뮬레이션, 베테랑 영입, TSMC와의 협업, 대규모 자금 조달, 현장 중심 실행으로 검증을 쌓아가는 과정이 핵심 서사다.

🧩 배경과 문제 정의

추론 시장에서는 토큰 생산량이 기업 가치와 직결되며, 더 많은 토큰을 더 빠르고 저렴하게 만드는 능력이 핵심 경쟁력으로 다뤄진다.
두 젊은 창업자는 엔비디아와 대형 반도체 기업에 맞서 10배 개선을 목표로 삼았지만, 초기에는 업계 경험·자본·칩 출시 이력이 부족해 실현이 어렵다는 반응이 많았다.
기존 반도체와 데이터센터 스택은 범용성을 전제로 한 완충 장치와 제약 위에 구축되어 왔으며, 추론 전용 워크로드에서는 이 제약들을 다시 정의할 여지가 있다.
prefill은 실사용 FLOPs와 발열이, decode는 메모리 대역폭·지연시간·클러스터 확장성이 주요 병목으로 작용하며, 이 두 축이 대규모 추론의 성능과 비용을 좌우한다.

🕒 시간순 섹션별 상세정리

1. 추론 시장의 규모와 초기 불신

출발점은 추론이 세계 최대 시장이 될 수 있으며, 가장 많은 토큰을 생산하는 회사가 가장 가치 있는 회사가 될 수 있다는 판단이다 [00:06]
회사 내부에서도 이 문제가 풀리지 않을 것이라 보고 떠난 사람들이 있었고, 반도체 회사를 택한 구성원은 가족을 산호세로 옮기며 큰 불확실성을 감수했다 [00:21]

2. 범용 반도체 제약을 추론 전용 조건으로 바꾸는 접근

더 나은 AI 칩과 더 빠른 회사 구축을 동시에 믿으려면 일정한 순진함이 필요했고, 기존 해법들은 더 이상 맞지 않는 제약에 묶여 있었다 [02:02]
EDA 도구, 전력 모듈, 회로기판, 칩 설계, 표준 셀까지 반도체·데이터센터 스택은 데이터센터뿐 아니라 IoT와 엣지까지 포괄하는 범용 목적에 맞춰져 있었다 [02:27]

3. 회의론을 검증으로 바꾼 초기 설득 과정

일부는 젊은 창업자와 대기업 상대 경쟁이라는 조건만 보고 불가능하다고 봤지만, 다른 회의론자들은 숫자와 근거를 직접 확인하려 했다 [03:47]
전 Cypress Semiconductor CTO Mark Ross는 처음에는 더 빠른 추론 하드웨어가 불가능하다고 봤지만, 화이트페이퍼와 기능 시뮬레이션을 통해 검증 가능성을 열어두었다 [04:13]

4. 칩 하나가 아니라 랙 단위 추론 제품

제품의 단위는 단일 칩이 아니라 랙, 칩, 전력 공급, 보드, 칩 간 인터커넥트, 대량 랙 생산까지 포함하는 전체 추론 솔루션이다 [06:17]
대량 생산 자체도 제품의 일부이며, 추론 실행은 prefill과 decode라는 두 단계로 나뉜다 [06:34]

5. prefill 병목은 실사용 FLOPs와 열 제어

시장에서는 prefill 칩, decode 칩, HBM, SRAM, 3D RAM, 광·구리 인터커넥트 같은 분류가 앞서지만, 실제로는 DDR 공유 메모리 풀, 고급 패키징, compute die 위 메모리 적층 등 여러 구조가 비교됐다 [07:33]
3D RAM에는 열, 공급망, 하이브리드 본딩, FLOPs 배치 문제가 따르며, 모든 구조는 비용과 성능 사이의 트레이드오프를 갖는다 [08:01]

6. decode 병목은 클러스터 메모리와 맞춤 인터커넥트

decode는 메모리 중심 작업이며, 모델과 KV cache를 더 빠르게 불러올수록 사용자당 초당 토큰 처리량이 늘어난다 [10:25]
핵심은 칩 하나의 메모리 대역폭이 아니라 전체 scale-up 클러스터의 메모리 대역폭이며, cluster scale memory는 클러스터의 SRAM과 HBM을 하나의 풀처럼 쓰려는 설계다 [10:37]

7. 챗GPT 이후 워크로드에 맞춘 칩 설계 전환

기존 AI 칩 아키텍처는 챗GPT 이전에 만들어졌고, 현대 워크로드용 칩은 FLOPs 배치, 전압 도메인, 전력면, 패키징, 보드 설계가 모두 달라질 수밖에 없다 [12:00]
decode 측면에서는 칩과 시스템을 연결하는 방식 자체가 달라지며, 첫 세대 저전압 추론 기술은 다른 AI 칩 대비 절반 미만 전압에서 동작하는 방향을 잡는다 [12:19]

8. 추론 병목이 생산성과 접근성을 제한하는 구조

처리량, 토큰당 비용, 토큰당 전력 효율은 AI 보급의 핵심 지표이며, 공급 측 병목은 향후 10년 기술 산업의 큰 제약으로 남는다 [14:01]
실제 인공지능 모델은 인간 다수가 풀기 어려운 문제를 해결할 수 있고, 과학적 발견·의료 접근·교육 접근의 속도는 얼마나 많은 사람이 얼마나 빠르게 사용할 수 있는지에 달려 있다 [14:26]

9. 대규모 추론 클러스터와 칩 간 통신 병목

현재 유료 AI 플랜 사용자는 전 세계 인구의 극히 일부에 그치며, 거대한 사용자 규모를 감당하려면 함께 통신하는 칩 수가 훈련 클러스터 수준으로 늘어나야 한다 [15:30]
추론 클러스터는 현재 8칩 또는 NVL72 규모로 인식되지만, 빠르게 수천·수만 개 칩 규모로 커지며 칩 간 데이터 이동 시간이 성능의 핵심 변수가 된다 [15:49]

10. 토큰 생산의 규모의 경제와 제품 경험의 한계

아이폰은 부자와 일반 소비자가 같은 제품을 살 수 있을 만큼 규모의 경제에 도달했지만, 토큰은 아직 작은 범용 시스템이 수작업에 가까운 방식으로 만들어지는 초기 단계에 있다 [16:44]
토큰 서빙에서도 규모의 경제가 작동하면 더 많은 사용자가 최고 품질 모델을 쓸 수 있고, 단일 스케일업 클러스터에서 더 많은 사용자를 감당할 수 있다 [17:20]

11. 암 경험과 GPT-4V가 만든 인프라 문제의식

고등학교 2학년 말 무술 대회 부상 뒤 걷지 못했고, 물리치료와 여러 스캔 끝에 등에 큰 혹이 발견되며 4기 골암과 30% 미만 생존 확률이라는 상황에 놓였다 [18:51]
2년 가까운 항암치료, 수술, 보행 재활은 삶에서 중요한 것과 살아남았을 때 해야 할 일을 다시 정하게 만들었고, 대학에서 AI 모델과 GPT-3를 접하며 강한 관심이 생겼다 [19:21]

12. 추론 비용 폭증과 데이터 이동 중심의 창업 논리

2022년 무렵 여러 AI 스타트업은 조달 자금 대부분을 컴퓨트에 쓰고 있었고, 원하는 AI 제품은 연간 수천만 달러의 추론 비용을 요구해 소프트웨어 기업의 한계비용과 운영비 구조를 바꾸는 문제로 커졌다 [21:25]
추론은 향후 10년 동안 가장 큰 시장 중 하나가 될 수 있고, 미래 데이터센터의 많은 구성요소가 아직 설계되지 않았기 때문에 특정 병목을 골라 새로 만들 필요가 생겼다 [22:09]

13. 로보틱스 경험에서 나온 소수정예·승리 우선 원칙

전통적인 FTC 로보틱스 팀은 약 20명이 협업, 문서화, outreach까지 수행했지만, Sanford와의 2인 팀은 점수 획득 성능에만 집중하는 방식으로 방향을 바꿨다 [24:10]
작은 팀은 문서나 outreach 품질로 진출하는 대신 경기 자체를 이기는 전략을 택했고, 대부분의 경쟁 팀보다 훨씬 적은 인원으로 전문화했다 [24:41]

14. 제품 속도와 수직 통합이 Etched의 운영 방식이 된다

랙 스케일 제품에서는 velocity가 핵심이며, 홍보나 커뮤니케이션보다 실제로 출하되는 최고 제품이 승패를 가른다 [25:25]
제품에만 집중하고 병렬화를 밀어붙이면 대기업처럼 2만 명 규모의 조직이 없어도 세계 최고 제품을 만들 수 있다는 전제가 깔린다 [25:53]

15. 레전드 채용은 세계 최고 문제 해결자 추적에서 시작된다

인재 철학은 양극화되어 있으며, 매우 어려운 기술 문제에서는 세계 1위급 인재와 10위·100위급 인재의 차이가 문제 해결 가능성 자체를 바꾼다 [27:56]
프로젝트 기반 채용은 산업 전반의 가장 어려운 기술 문제를 지도처럼 펼치고, 누가 0에서 1을 만들었는지와 실제 작업을 누가 했는지를 추적한다 [28:18]

16. 축적된 스케일 경험과 원초적 실행력이 함께 작동한다

Brian은 Nvidia의 HGX·DGX 팀을 시작했고, 그 시스템은 Nvidia 매출의 큰 부분을 차지했으며, “수십억 달러짜리 교훈” 같은 경험이 Etched의 시행착오를 줄인다 [29:56]
Sanford는 대학 졸업 직전 플랫폼 지원을 위해 합류했고, 원래 수개월이 걸릴 수 있는 콜드플레이트 문제에서 일주일 만에 핵심 전력 리스크를 낮추는 장치를 만들었다 [30:42]

17. 반대 방향 베팅은 채용 필터이자 회사 운영 원리가 된다

Etched의 반대 방향 베팅은 인기 기업만 기회주의적으로 좇는 사람을 걸러내고, 깊게 검토한 뒤 높은 불확실성을 감수할 사람만 남기는 자기 선택 장치가 된다 [31:52]
제품과 스펙을 더 많이 공개할수록 이런 자기 선택 효과가 약해질 수 있다는 리스크도 생긴다 [32:09]

18. 벤더 지연을 직접 돌파한 Bangalore 병렬 개발

속도, 수직 통합, 병렬화, 큰 리스크 감수가 핵심 원칙이었고, 칩 tape-out 직전 한 벤더가 심각하게 지연되며 일정이 약 1년 밀릴 위험이 생겼다 [33:37]
기존 벤더를 유지해도 1년이 밀리고, 벤더를 바꿔 처음부터 다시 시작해도 1년이 밀리는 상황이라 제3의 선택지가 필요했다 [34:21]

19. 병목을 직접 공략하려면 팀과 즉시 의사결정이 핵심이다

수직통합형 하드웨어 사업에서는 가장 큰 제약 조건을 찾아 자원을 직접 집중해야 하며, 칩은 혼자 만들 수 없기 때문에 뛰어난 팀을 모으는 일이 첫 과제가 된다 [36:00]
팀원들은 6개월에서 12개월까지 생활 기반을 옮기는 부담을 감수해야 했고, 이런 결정을 가능하게 하는 동기와 신뢰가 실행력의 기반이 된다 [36:43]

20. 선제 투자와 프리패칭으로 칩 도착 전 모든 준비를 끝낸다

AI 추론 시장에서는 하루에도 10억 달러가 넘는 매출 기회가 움직이기 때문에, 명확한 ROI가 보이면 비용을 써서 일정을 병렬화하는 편이 유리하다 [38:02]
프리패칭은 칩이 도착하기 전 가능한 작업을 모두 앞당기는 방식이며, 소프트웨어 스택·네트워킹·CPU·스토리지·고객 데이터센터 랙을 칩 없이 먼저 준비한다 [38:24]

21. 40일 실행에는 교대 운영과 현장 밀도가 필요하다

40일 목표에는 선행 준비뿐 아니라 주야간 교대 운영이 크게 작용했고, 낮 근무자는 오전 10시부터 자정까지, 밤 근무자는 자정부터 오전 10시까지 움직였다 [40:00]
팀이 24시간 체제로 움직이면서 실리콘, 랙, 소프트웨어, 생산 라인의 잔여 문제를 빠르게 묶어 해결할 수 있었다 [40:12]

22. 공급망 경쟁력은 구매가 아니라 벤더와의 협업에서 나온다

메모리와 AI 인프라 공급 부족이 전 세계 투자와 산업의 중심 이슈가 되면서, 예전에는 평범한 상품처럼 보이던 부품도 전략 자산으로 바뀌었다 [40:30]
반도체 공급망의 핵심은 부품을 사고 끝내는 거래가 아니라 TSMC나 메모리 벤더와 지속적으로 협업하는 관계이며, 성공 여부도 이 파트너십에 크게 달려 있다 [41:19]

23. 전력과 공간 병목에서는 속도보다 동시 처리량이 더 중요해진다

전력 확보와 공급까지 걸리는 시간이 큰 병목이며, 필요한 전력이 커질수록 부족이 심해져 500MW급 데이터센터를 구하기가 어려워진다 [42:32]
같은 메가와트에서 더 많은 토큰을 뽑아내는 것이 중요해지고, PUE 개선뿐 아니라 전력당 처리량을 높이는 새로운 하드웨어가 필요해진다 [42:55]

24. 긴 시간 지평의 AI 작업은 wall-clock 단축으로 가치가 커진다

더 빠른 AI 하드웨어는 난제 해결 시간을 줄이고, unit disk conjecture처럼 오랜 계산이 필요한 문제도 같은 모델을 10배 빠르게 돌리면 돌파구까지 걸리는 시간이 짧아진다 [45:45]
수학 문제처럼 100년이나 1,000년이 걸릴 수 있는 작업은 더 똑똑한 모델뿐 아니라 같은 지능의 모델을 훨씬 빠르게 실행하는 방식으로도 해결 가능성이 커진다 [46:16]

25. 칩 간 지연시간과 전력 효율에는 아직 큰 개선 여지가 남아 있다

NVIDIA 제품의 칩 간 이동 지연은 약 4,000나노초 수준이고, 물리적 한계는 빛의 속도에 가까운 수 나노초 단위라서 현재 시스템과 이론적 한계 사이의 격차가 매우 크다 [48:29]
전압을 낮추면 전력 효율을 크게 개선할 수 있고, 더 낮은 전압 영역은 어렵지만 20~30년 관점에서는 추가 효율 개선이 불가피한 방향이다 [48:47]

26. 커널 중심 소프트웨어 전략은 AI가 코드를 더 잘 만들수록 유리해진다

AI 모델은 행렬곱, 컨볼루션, 칩 간 집합 통신 같은 기본 프리미티브로 구성되고, 이 연산들의 중첩·메모리 배치·재전송 처리 방식이 전체 파이프라인 성능을 좌우한다 [50:21]
개별 커널 최적화는 한 번에 3~4% 성능 개선을 만들 수 있고, 여러 최적화가 누적되면 같은 하드웨어에서 더 많은 처리량을 끌어낼 수 있다 [50:47]

27. 범용 컴파일러 대신 소수의 중요한 모델에 최적화한다

GPOSS는 문서만 바탕으로 Codex가 하룻밤 사이에 구동할 수 있었고, 내부 도구와 문서가 AI 에이전트의 실행 환경으로도 작동할 수 있음을 보여준다 [51:52]
임의의 그래프 컴파일러, 임의의 PyTorch, 임의의 CUDA, 임의의 ONNX 그래프를 지원하지 않는 선택은 개발 범위를 줄이고 핵심 모델에 성능을 집중하는 전략이다 [52:17]

28. 수직통합의 기준은 토큰 생산량과 규모의 경제다

AI 칩 구매자는 소수 대형 고객에 집중돼 있고, 이 고객들 중 상당수는 자체 AI 칩도 설계하려 하기 때문에 칩 제조사·모델 기업·클라우드·데이터센터의 경계가 흔들린다 [53:23]
핵심 목표는 가능한 한 많은 토큰 용량을 온라인에 올리는 것이며, 칩당 처리량과 지연시간 개선은 같은 생산량에서 더 많은 토큰을 만들기 위한 직접 수단이다 [54:10]

29. 자체 칩 프로젝트와 전용 칩 회사의 동기는 다르다

프런티어 AI 회사의 차세대 칩 책임자조차 합류를 선택한 이유는 내부 칩 성공이 기존 대기업의 생존 조건은 아니지만, 전용 칩 회사에는 제품 그 자체가 생존 조건이기 때문이다 [55:41]
Google은 TPU가 실패해도 검색 매출이 있고, Meta·Microsoft·OpenAI도 각각 MTIA·Maya·Jalapeno 실패만으로 회사가 무너지지는 않는다 [56:14]

30. 50피코초 타이밍 문제는 양산을 멈출 수 있는 치명적 결함이었다

전체 칩 검증을 위해 대형 FPGA 클러스터를 만들었지만, FPGA는 디지털 로직은 검증해도 아날로그 로직 문제까지 잡지 못했다 [57:17]
실제 칩에서 어텐션 적응 결과가 틀어졌고, 클록 도메인 crossing의 백프레셔 로직 실패가 잘못된 결과를 만들 수 있는 치명적 문제로 드러났다 [57:32]

31. 실패 실험 속에서도 일부 성공이 칩 bring-up의 결정적 자산이 됨

칩 bring-up 과정에서 약 30개의 보드 실험이 진행됐고, 그중 3개만 작동했지만 작동한 3개가 매우 큰 가치를 만들었다 [1:00:01]
대부분의 실험이 실패해도 한 번만 맞으면 된다는 접근이 핵심이며, 하드웨어 개발에서는 소수의 성공이 전체 학습과 진전을 끌고 간다 [1:00:11]

32. 보안·투자관리 소프트웨어 광고 구간

Vanta는 16,000개 이상의 빠르게 성장하는 회사에 보안·컴플라이언스 자동화를 제공하며, 감사 사이의 벤더·AI 도구·환경 리스크를 계속 감시한다 [1:00:18]
Vanta 에이전트는 24시간 GRC 엔지니어처럼 백그라운드에서 문제를 찾고 수정안을 작성하며, 벤더 평가 시간을 최대 50% 줄인다 [1:00:47]

33. 칩 하나가 아니라 전체 클러스터를 만들어야 하는 자본 부담

초기에는 자본이 필요하다는 사실은 알고 있었지만, 실제로는 회사를 살리기 위해 예상보다 훨씬 큰 규모의 자금이 필요해졌다 [1:02:04]
2024년 초에는 아키텍처와 설계가 충분히 진전돼 칩 구조의 타당성은 확인됐지만, 물리 설계 단계에 들어가려면 최소 4,000만~5,000만 달러 규모의 벤더 계약이 필요했다 [1:03:04]

34. 1억 달러 필요성과 투자자들의 즉각적인 거절

2023년 말에는 100시간가량을 들여 30쪽짜리 기술·시장·마일스톤·토큰 비용 모델링 메모를 만들었고, 요구 자금 규모를 납득시키는 일이 가장 큰 과제가 됐다 [1:04:06]
실리콘밸리의 주요 투자자들은 하버드를 막 마친 두 창업자, 테이프아웃 경험 부재, 테스트 칩 부재, 추론 시장 불확실성, AI 버블 가능성을 이유로 즉시 거절했다 [1:04:32]

35. 생존 모드의 조달과 시리즈 A 성사

테스트 칩에 몇 년을 쓰며 AI 시장의 성장기를 놓치는 선택지는 배제됐고, 제품을 제대로 만들기 위해서는 처음부터 1억 달러를 마련해야 했다 [1:06:02]
사무실에서 50만 달러, 10만 달러 단위의 비용 절감을 따져도 계산은 맞지 않았고, 모두가 무급으로 버틸 수 있는 기간을 늘려도 자금 부족 문제는 해결되지 않았다 [1:06:19]

36. 공급사 신뢰와 반대편 베팅의 투자 논리

TSMC는 1억 달러 조달 전의 불안정한 시기에도 Etched와 협력했고, 에뮬레이터를 여러 해에 걸쳐 갚는 매우 유리한 조건으로 제공했다 [1:07:55]
공급사의 유리한 조건은 사실상 큰 대출과 같았고, 재무적 유인만이 아니라 회사와 팀을 믿는 파트너십이 초기 생존에 영향을 줬다 [1:08:14]

37. 기존 투자 관성의 한계와 변형된 인식의 기회

전통 반도체 펀드와 코딩 전문가들은 AI 칩 기업과 AI 코딩 기업을 놓쳤고, 과거 tape-out 실패 경험에 익숙한 사람일수록 현재 검증 도구와 FPGA 환경의 변화를 과소평가했다 [1:12:00]
오늘날에는 EDA 도구와 FPGA, 다양한 validation 방식이 이전보다 강해졌고, 칩 설계 리스크를 판단하는 기준 자체가 바뀌었다 [1:12:24]

38. 불가능해 보이는 문제를 푸는 조직 태도

오래 버틴 구성원들은 반복되는 위기를 이미 통과한 경험이 있고, 새로 합류한 사람들이 두려워하는 상황에서도 “또 하나의 문제”처럼 받아들이는 태도를 갖는다 [1:14:02]
조직 안에서는 불가능을 전제로 삼지 않고, 모든 문제는 풀 수 있으며 충분히 시도하면 해법을 찾는다는 “find a way” 문화가 작동한다 [1:14:18]

39. 차세대 추론 칩 설계의 세 가지 원칙

초기에는 모델을 FPGA로 옮기는 compiler, weight를 silicon에 고정하는 방식, HBM을 KV cache와 weight로 나누는 방식 등 여러 접근을 실험했고, 반복 학습 끝에 추론 확장의 핵심 원칙이 좁혀졌다 [1:16:22]
세계의 대부분 token을 처리하려면 전력 예산 안에서 가장 많은 FLOPS를 내는 칩, 칩 간 지연이 가장 낮은 scale-up domain, 그리고 가능한 한 많은 생산량이 필요하다 [1:16:43]

40. 공급망 병목을 피하는 설계와 수직 통합

TSMC 선단 공정 capacity, HBM4 availability, scarce unit of capacity 같은 외부 병목은 대규모 생산을 목표로 할 때 피할 수 없는 현실이 된다 [1:18:00]
대규모 컴퓨트를 배포하는 고객들은 wafer와 memory 공급을 제로섬으로 보지만, 첫 제품은 Rubin과 다른 공급망을 사용해 4nm와 다른 HBM을 선택함으로써 직접 충돌을 줄였다 [1:18:23]

41. 모델 구조는 메모리보다 연산을 더 많이 쓰는 방향으로 이동

기계는 사람처럼 생각하지 않으며, 비행기가 새와 다른 방식으로 나는 것처럼 AI 모델도 인간 뇌의 계산 방식을 그대로 따르지 않고 하드웨어에 더 적합한 구조로 발전할 수 있다 [1:19:56]
인간 신경계에서는 데이터 저장과 memory loading이 싸고 math가 비싸지만, 칩에서는 data loading이 비싸고 math가 싸다. 시간이 갈수록 math 비용은 memory 비용보다 더 빠르게 낮아진다 [1:20:13]

42. 동적 연산을 지원하는 하드웨어와 더 긴 작업 시간축

context length, model size, user당 computation이 커질수록 계산 자원을 효율적으로 배분하는 일이 중요해지고, mixture of experts처럼 모든 token에 모든 parameter를 쓰지 않는 구조가 하드웨어 요구를 바꾼다 [1:22…] [1:22:14]
token별로 필요한 context를 공유하거나 중요한 token에 더 많은 compute와 더 긴 context를 배정하면, memory overhead를 줄이면서 계산 자원을 더 정교하게 사용할 수 있다 [1:22:29]

43. 에이전트 규모가 노동력과 에너지 지표를 바꾼다

인간 한 명이 로켓을 만들 수 없듯이, 미래형 소프트웨어를 만드는 에이전트도 단일 개체보다 팀 단위로 작동해야 하며, 그 규모는 10개에서 수백만 개까지 커질 수 있다 [1:24:01]
대규모 에이전트 팀을 운영하려면 짧은 토큰 지연 시간을 위한 클러스터 규모의 메모리와, 전체 에이전트 fleet을 지속적으로 돌릴 막대한 플롭스가 필요하다 [1:24:24]

44. MoE와 데이터센터 규모의 경제가 토큰 비용을 낮춘다

수요가 거대해질수록 규모의 경제는 다시 핵심 변수가 되며, 사람의 뇌처럼 모든 부분을 동시에 쓰지 않는 구조는 MoE 모델의 작동 방식과 맞닿아 있다 [1:26:01]
MoE 모델은 각 토큰마다 전체 파라미터가 아니라 일부 expert만 사용한다. 많은 사용자를 같은 하드웨어에 태우면 expert를 여러 서버에 나눠 배치해 높은 트래픽을 처리할 수 있다 [1:26:16]

45. 토큰 공급망과 클러스터 효율이 핵심 사업 기회가 된다

사고는 모든 회사 운영의 기반이며, 기계가 최고 인간 수준에 가깝거나 그 이상으로 생각할 수 있는 시점에는 그 기계를 만들고 운용하는 일이 거대한 기회가 된다 [1:27:40]
수요가 계속 커질수록 미래의 quadrillion-parameter 모델을 10억 명이 동시에 사용하는 gigantic scale-up cluster에서 운용할 새로운 솔루션과 로드맵이 필요해진다 [1:28:10]

46. 생존과 보행 사이의 선택, 그리고 가족의 지원

16세 때 암 치료 과정에서 수술과 방사선 중 하나를 선택해야 했다. 수술은 생존 확률이 더 높지만 다시 걷지 못할 가능성을 감수해야 했고, 방사선은 보행 가능성을 남기지만 생존 확률이 낮았다 [1:29:49]
부모는 대신 결정하지 않고 본인이 선택해야 한다고 했으며, 긴 고민 끝에 그는 수술을 선택했다 [1:30:13]

47. 후반 파트너 메시지와 기업용 소프트웨어 제안

Ramp는 큰 실수보다 수많은 작은 지출 결정에서 돈이 새는 문제를 겨냥하며, 실시간 한도와 자동 규칙으로 지출 전에 guardrail을 세운다 [1:31:20]
Vanta는 기업 성장에 맞춰 compliance를 자동화하고, 보안과 리스크에 대한 single source of truth를 제공한다고 제안한다 [1:31:35]

🧾 결론

이 영상의 결론은 NVIDIA와 정면 경쟁하려면 단순히 더 빠른 연산 유닛을 만드는 것만으로는 부족하고, 추론 제품의 단위를 “칩”에서 “토큰 생산 시스템”으로 넓혀야 한다는 점이다.
Etched가 겨냥하는 병목은 prefill의 열·실사용 FLOPs, decode의 메모리 이동·칩 간 지연시간, 그리고 대규모 생산 가능성이라는 세 축으로 정리된다.
창업팀의 강점은 반도체 업계의 표준 해법을 따르기보다, 추론 전용 조건에서 불필요한 제약을 제거하고 작은 개선을 누적해 큰 차이를 만들려는 태도에 있다.
동시에 이 이야기는 고위험 하드웨어 스타트업의 현실도 보여준다. 칩 설계, 벤더 지연, 50피코초 타이밍 문제, 자금 부족, 공급망 병목은 모두 회사를 멈출 수 있는 수준의 리스크로 등장한다.
제목의 “$800M 조달”은 메타데이터상 핵심 포인트지만, 제공된 section-detail 안에서는 1억 달러대 시리즈 A와 후속 라운드의 흐름만 구체적으로 설명되므로, 총 조달액의 세부 구성은 별도 원자료 확인이 필요하다.

📈 투자·시사 포인트

AI 인프라 투자에서 핵심 지표는 점점 GPU 개수나 단일 칩 성능보다 tokens per watt, tokens per dollar, 사용자당 초당 토큰, 동시 처리량으로 이동할 가능성이 크다.
NVIDIA의 강점은 여전히 막강하지만, 영상은 추론 전용 워크로드가 커질수록 범용 GPU 스택의 일부 제약을 우회하려는 전용 시스템 기업에 기회가 생길 수 있음을 시사한다.
반도체 스타트업 평가는 기술 아이디어만으로 부족하며, TSMC·메모리·보드·냉각·랙 생산·고객 데이터센터까지 이어지는 공급망 실행 능력을 함께 봐야 한다.
Etched식 수직 통합은 성공하면 큰 차별화가 될 수 있지만, 자본 소모와 일정 리스크가 매우 크기 때문에 투자 관점에서는 기술 검증뿐 아니라 생산 가능성, 고객 수요, 공급 병목 회피 여부가 중요하다.
추론 비용이 계속 낮아지면 의료, 과학, 교육, 장기 AI 작업처럼 지금은 비용과 지연시간 때문에 제한되는 사용 사례가 커질 수 있고, 이는 데이터센터와 전력 인프라 수요를 더 밀어 올릴 수 있다.
검증 필요 포인트는 Etched의 실제 성능 수치, NVIDIA 대비 지연시간·전력효율 개선 폭, 대량 생산 수율, 고객 채택 규모, 그리고 제목의 $800M 조달액 세부 내역이다.

⚠️ 불확실하거나 확인이 필요한 부분

제목의 “$800M 조달”은 입력된 섹션 상세에는 직접 근거가 부족합니다. 본문에는 약 1억300만 달러의 시리즈 A 소프트 커밋과 이후 추가 라운드만 언급되므로, 총 조달액·라운드 구조·투자자 명단은 별도 확인이 필요하다.
Etched의 성능 주장인 10배 개선, 5배 이상 낮은 인터커넥트 지연, 다른 AI 칩 대비 절반 미만 전압, 40일 만의 랙 추론 실행 등은 인터뷰 발화 기반 주장으로 보이며, 독립 벤치마크나 고객 검증 자료와 분리해 다뤄야 한다.
NVIDIA Blackwell의 point-to-point 이동 지연 약 4,000ns, GPU MFU 20~50%, FB8 연산 밀도 비교 같은 수치는 기술적으로 중요한 주장이나, 공개 사양·논문·벤더 자료와 대조 확인이 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

노트 본문에서 “Etched가 $800M을 조달했다”는 표현을 사용할 경우, 회사 발표·투자자 보도자료·공신력 있는 데이터베이스로 총 조달액을 먼저 확인한다.
기술 주장 정리 시 “인터뷰에서 제시된 주장”과 “외부 검증된 벤치마크”를 구분하고, 10배 성능·저전압·지연시간·전력 효율 수치에는 검증 필요 표시를 붙입니다.
prefill, decode, KV cache, cluster-scale memory, MFU, scale-up interconnect 같은 핵심 용어를 별도 용어 설명으로 정리해 독자가 기술 논리를 따라갈 수 있게 한다.
투자·조직 운영 파트에서는 시리즈 A 1억300만 달러, 4,000만~5,000만 달러 벤더 계약, 1,500만 달러 현금 부족 같은 숫자를 타임라인 형태로 재구성한다.

❓ 열린 질문

Etched가 주장하는 성능 개선은 실제 고객 워크로드에서 NVIDIA GPU 대비 어느 정도로 재현될 수 있을까요?
추론 전용 칩이 범용 GPU 생태계의 소프트웨어 유연성 부족을 얼마나 감수할 수 있을까요?
소수의 핵심 모델에 최적화하는 전략은 모델 구조가 빠르게 바뀌는 환경에서도 장기적으로 유효할까요?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. 추론 시장의 규모와 초기 불신

2. 범용 반도체 제약을 추론 전용 조건으로 바꾸는 접근

3. 회의론을 검증으로 바꾼 초기 설득 과정

4. 칩 하나가 아니라 랙 단위 추론 제품

5. prefill 병목은 실사용 FLOPs와 열 제어

6. decode 병목은 클러스터 메모리와 맞춤 인터커넥트

7. 챗GPT 이후 워크로드에 맞춘 칩 설계 전환

8. 추론 병목이 생산성과 접근성을 제한하는 구조

9. 대규모 추론 클러스터와 칩 간 통신 병목

10. 토큰 생산의 규모의 경제와 제품 경험의 한계

11. 암 경험과 GPT-4V가 만든 인프라 문제의식

12. 추론 비용 폭증과 데이터 이동 중심의 창업 논리

13. 로보틱스 경험에서 나온 소수정예·승리 우선 원칙

14. 제품 속도와 수직 통합이 Etched의 운영 방식이 된다

15. 레전드 채용은 세계 최고 문제 해결자 추적에서 시작된다

16. 축적된 스케일 경험과 원초적 실행력이 함께 작동한다

17. 반대 방향 베팅은 채용 필터이자 회사 운영 원리가 된다

18. 벤더 지연을 직접 돌파한 Bangalore 병렬 개발

19. 병목을 직접 공략하려면 팀과 즉시 의사결정이 핵심이다

20. 선제 투자와 프리패칭으로 칩 도착 전 모든 준비를 끝낸다

21. 40일 실행에는 교대 운영과 현장 밀도가 필요하다

22. 공급망 경쟁력은 구매가 아니라 벤더와의 협업에서 나온다

23. 전력과 공간 병목에서는 속도보다 동시 처리량이 더 중요해진다

24. 긴 시간 지평의 AI 작업은 wall-clock 단축으로 가치가 커진다

25. 칩 간 지연시간과 전력 효율에는 아직 큰 개선 여지가 남아 있다

26. 커널 중심 소프트웨어 전략은 AI가 코드를 더 잘 만들수록 유리해진다

27. 범용 컴파일러 대신 소수의 중요한 모델에 최적화한다

28. 수직통합의 기준은 토큰 생산량과 규모의 경제다

29. 자체 칩 프로젝트와 전용 칩 회사의 동기는 다르다

30. 50피코초 타이밍 문제는 양산을 멈출 수 있는 치명적 결함이었다

31. 실패 실험 속에서도 일부 성공이 칩 bring-up의 결정적 자산이 됨

32. 보안·투자관리 소프트웨어 광고 구간

33. 칩 하나가 아니라 전체 클러스터를 만들어야 하는 자본 부담

34. 1억 달러 필요성과 투자자들의 즉각적인 거절

35. 생존 모드의 조달과 시리즈 A 성사

36. 공급사 신뢰와 반대편 베팅의 투자 논리

37. 기존 투자 관성의 한계와 변형된 인식의 기회

38. 불가능해 보이는 문제를 푸는 조직 태도

39. 차세대 추론 칩 설계의 세 가지 원칙

40. 공급망 병목을 피하는 설계와 수직 통합

41. 모델 구조는 메모리보다 연산을 더 많이 쓰는 방향으로 이동

42. 동적 연산을 지원하는 하드웨어와 더 긴 작업 시간축

43. 에이전트 규모가 노동력과 에너지 지표를 바꾼다

44. MoE와 데이터센터 규모의 경제가 토큰 비용을 낮춘다

45. 토큰 공급망과 클러스터 효율이 핵심 사업 기회가 된다

46. 생존과 보행 사이의 선택, 그리고 가족의 지원

47. 후반 파트너 메시지와 기업용 소프트웨어 제안

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

As AI companies race to go public, who else is along for the ride?

후배 대신 토큰 줄게" 젠슨 황이 예고한 미래의 직장 (강정수 블루닷AI 연구소장)

NVIDIA Blackwell Leads on First Agentic AI Infrastructure Benchmark

Scale Robot Reinforcement Learning with NVIDIA Isaac Lab on Amazon SageMaker AI

Tech analyst Philip Klöckner in conversation with Conor McNamara

실전! 풀스택 바이브 코딩 - 2. Claude Code 사용방법