Stanford MS&E435 Economics of the AI Supercycle
Quick Summary
Stanford MS&E435의 AI Supercycle 강연은 Applied AI의 승부처가 더 좋은 앱 자체를 넘어, 폭증하는 인퍼런스를 싸고 빠르고 안정적으로 운영하는 커스텀 모델·후훈련·컴퓨트 확보 능력으로 이동하고 있음을 보여준다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Stanford MS&E435의 AI Supercycle 강연은 Applied AI의 승부처가 더 좋은 앱 자체를 넘어, 폭증하는 인퍼런스를 싸고 빠르고 안정적으로 운영하는 커스텀 모델·후훈련·컴퓨트 확보 능력으로 이동하고 있음을 보여준다.
📌 핵심 요점
- AI 애플리케이션이 확산될수록 병목은 모델 호출 자체보다 지연시간, 안정성, 멀티클라우드, 보안, 관측성을 포함한 프로덕션 인퍼런스 운영으로 이동한다.
- Base10은 Abridge, WhisperFlow 같은 대규모 AI 앱이 프런티어 모델 의존을 줄이고 커스텀·오픈소스·후훈련 모델을 운영하도록 돕는 인퍼런스 인프라 기업으로 설명된다.
- 강연자는 프런티어 모델 대비 오픈소스 모델이 약 90일 뒤처져 있지만 실행 비용은 70~90% 낮을 수 있다고 말하며, 대량 워크로드에서는 이 비용 차이가 매출총이익률과 생존 가능성을 좌우한다고 본다.
- 후훈련의 핵심은 고객사가 자사 데이터, 사용자 신호, 목적함수를 바탕으로 특화 모델을 만들고, 이를 실제 추론 스택에 연결해 비용뿐 아니라 성능·지연시간·신뢰성까지 통제하는 데 있다.
- 인퍼런스 수요가 계속 커지면서 GPU 공급, 전력, 데이터센터 공간, 모듈형 인프라, 칩 생태계, 오픈소스 모델 지속 가능성이 AI 슈퍼사이클의 핵심 경제 변수로 부상한다.
🧩 배경과 문제 정의
- AI 애플리케이션이 확산되면서 핵심 병목은 모델 개발 자체에서, 모델을 실제 제품 안에서 빠르고 안정적으로 실행하는 프로덕션 인퍼런스 인프라로 이동하고 있다.
- 베이10은 프런티어 모델 API를 그대로 호출하는 비용 구조를 넘어, 커스텀 모델·후훈련 모델·오픈소스 모델을 대규모 서비스에 올리는 인퍼런스 레이어를 핵심 사업으로 삼는다.
- 대형 AI 애플리케이션 기업은 낮은 지연시간, 높은 안정성, 멀티클라우드 운영, 보안, 관측성, 비용 최적화를 동시에 필요로 한다. 단순 클라우드 컴퓨트만으로는 전체 인퍼런스 스택을 직접 구축해야 하는 부담이 커진다.
🕒 시간순 섹션별 상세정리
1. 인퍼런스 폭증과 베이10 창업자의 경로
- 인퍼런스 사용량이 1,000배나 100만 배를 넘어 10억 배까지 늘어날 수 있다는 문제의식에서 논의가 출발한다 [00:09]
- 베이10은 이처럼 폭발적으로 커질 인퍼런스 수요를 뒷받침하는 인프라 기업으로 묶인다 [00:24]
2. 베이10 설립과 프로덕션 인퍼런스 사업의 형성
- 2015년부터 여러 회사를 시작했지만 큰 성과를 내지 못했고, 그 경험은 초기 스타트업과 창업에 대한 집착으로 이어졌다 [02:24]
- 2019년 투힌과 오랜 공동창업자들은 머신러닝이 크게 성장할 것이라고 보고, 그 흐름에 베팅하는 인프라 회사를 세우기로 했다 [02:36]
3. WhisperFlow 사례: 음성 입력을 실시간 텍스트 경험으로 바꾸는 인퍼런스
- 베이10의 고객에는 AI 창업자들이 많으며, WhisperFlow는 음성을 키보드 입력처럼 텍스트로 변환하는 음성 입력 애플리케이션이다 [03:21]
- WhisperFlow에서는 사용자가 말하는 즉시 텍스트가 표시되어야 하므로, 지연시간을 극도로 낮추는 것이 사용자 경험의 핵심이다 [04:43]
4. Abridge 사례: 의료 기록 자동화와 높은 신뢰성 요구
- Abridge는 미국의 거의 모든 의료 시스템에서 쓰이는 헬스케어 ambient scribe 사례로 묶인다 [05:18]
- Abridge는 전자의무기록 시스템과 깊게 통합되어, 환자 진료 맥락을 임상 노트로 전환한다 [05:33]
5. 대형 클라우드 대신 베이10을 쓰는 이유
- Abridge나 WhisperFlow처럼 이미 규모를 갖춘 기업도 AWS, GCP, Azure, CoreWeave, Nebius 같은 클라우드 대신 베이10을 선택할 유인이 있다 [07:01]
- 핵심은 단순히 GPU를 빌리는 것이 아니라, 전체 인퍼런스 운영 스택을 최적화해야 한다는 데 있다 [07:16]
6. 오픈소스·후훈련 모델의 비용 우위와 방어성
- 오픈소스 또는 후훈련 모델을 쓰면 다음 세대 프런티어 모델이 더 좋아질 위험을 감수해야 한다 [08:29]
- 그럼에도 규모화 단계에서는 비용과 방어성 때문에 별도의 모델 스택을 구축할 유인이 커진다 [08:44]
7. 대규모 AI 앱에서 후훈련 전환이 생존 문제가 된다
- Abridge, WhisperFlow, Cursor 같은 대형 고객은 동시에 프런티어 모델의 큰 고객이기도 하다 [12:07]
- 사용자 기반이 커질수록 자체 후훈련 또는 오픈소스 기반 전환은 더 실존적인 문제가 된다 [12:22]
8. 후훈련 모델 전환은 비용 절감뿐 아니라 성능 통제까지 겨냥한다
- Cursor가 Anthropic이나 최신 OpenAI 모델에서 Composer 같은 후훈련 모델로 옮기면, 사용자 입장에서는 핵심 엔진이 바뀌는 수준의 변화가 발생한다 [13:29]
- 이 전환은 단순한 비용 절감이 아니라 제품 경험과 성능 통제력을 직접 바꾸는 결정이다 [13:44]
9. 후훈련 워크플로는 고객의 목적함수와 데이터에서 시작한다
- 후훈련의 출발점은 고객이 어떤 모델을 기반으로 무엇을 최적화할지 정하는 것이다 [16:38]
- 이 목적함수는 자사 제품, 사용자, 비즈니스 맥락에 맞춰 고객이 직접 정의해야 한다 [16:53]
10. 의료 음성 인식 사례에서 특화 모델의 경제성이 드러난다
- 의료용 speech-to-text 모델의 핵심 목적함수는 전사 오류를 줄이는 것이다 [17:32]
- Kimmy K25 같은 베이스 모델에 고객 데이터셋을 결합해 의료 영역에 맞춘 후훈련 모델을 만든다 [17:47]
11. 고객 데이터 신뢰는 보안 경계와 실행 속도 사이에서 결정된다
- 고객 데이터는 기업에 “왕국의 열쇠”에 가까운 핵심 자산이기 때문에 외부 위임 장벽이 높다 [18:28]
- 베이10은 대형 고객과의 협업 이력과 브랜드 신뢰를 바탕으로 데이터 위임에 대한 부담을 낮춘다 [18:43]
12. 오픈소스 모델의 지속 가능성이 베이10의 구조적 베팅이 된다
- 베이10의 핵심 베팅 중 하나는 독립적인 AI 애플리케이션 레이어가 앞으로도 계속 존재한다는 것이다 [20:33]
- 또 다른 베팅은 오픈소스 모델이 충분히 발전해 후훈련 기반 모델로 계속 활용될 수 있다는 점이다 [20:48]
13. 모델 다양성과 미국 오픈소스의 필요성
- 지능이 소수의 개인이나 기업에 집중되는 구조는 역사적으로 권력 집중의 부작용을 키울 수 있다 [24:16]
- 막대한 이익 동기를 가진 기업들이 사회 전체의 도덕 기준을 사실상 결정하는 구도는 위험하다고 지적된다 [24:31]
14. 하드웨어 생태계와 엔비디아의 현재 우위
- 현재 대부분의 추론 작업은 엔비디아 하드웨어 위에서 실행된다 [26:00]
- Trainium은 약 200억 달러 매출 run rate를 냈고, TPU, Cerebras, Dmatrix, SambaNova 같은 대안 칩도 추론 생태계에 진입하고 있다 [26:15]
15. 이기종 추론 아키텍처와 속도 최적화
- 추론은 prefill과 decode처럼 성격이 다른 작업 단계로 나뉜다 [27:53]
- 모든 연산을 하나의 칩에서 처리하는 현재 구조가 최종적인 형태는 아닐 가능성이 크다 [28:08]
16. 20개 클라우드와 87개 클러스터를 묶는 추론 공급 전략
- 베이10은 약 20개 클라우드와 87개 클러스터를 활용해 분산된 GPU 공급을 하나의 자원처럼 묶는다 [29:57]
- 고객은 GPU의 출처를 신경 쓰지 않고 사용할 수 있는 fungible compute 구조를 제공받는다 [30:12]
17. 임대 중심 전략의 한계와 GPU 공급 부족
- 기존 전략은 소프트웨어가 스택의 sticky한 부분이라는 판단에 가까웠다 [32:43]
- 반대로 클라우드 사업자들은 GPU 접근권 자체가 sticky한 부분이라고 본다 [32:58]
- 데이터센터를 직접 지을 역량이나 이유가 없었기 때문에 임대는 속도를 위한 선택이었다 [33:14]
- 그러나 앞으로는 GPU 공급 부족이 알려진 것보다 훨씬 심각한 문제로 커진다 [33:29]
18. 컴퓨트 접근이 추론의 전략적 우위로 전환
- 추론에서 전략적 우위는 컴퓨트 접근성으로 이동하고 있다 [34:53]
- 단순히 소프트웨어를 잘 실행하는 능력보다 충분한 GPU를 확보하는 능력이 더 중요해진다 [35:08]
- 현재 베이10의 추론 서비스는 전체 고객 기준으로 하루 약 30조 토큰을 처리한다 [35:20]
- 이 규모는 OpenAI의 API 제품과 Gemini API보다 더 큰 수준으로 드러난다 [35:35]
19. 자체 컴퓨트 확보가 비용과 생존 리스크를 동시에 좌우한다
- 70억 달러 수준의 컴퓨트 지출은 임대만으로 안정적으로 접근하기 어려운 규모다 [36:03]
- 칩 공급자와의 강한 관계, 직접 구매, 직접 구축이 추론 수요 충족의 조건이 된다 [36:18]
- 자체 인프라 구축은 Oracle 같은 스케일드 클라우드의 약 30% 총마진을 피할 수 있게 한다 [36:28]
- 그 결과 동일한 컴퓨트를 약 30% 저렴하게 확보하는 경제적 이점이 생긴다 [36:43]
20. 추론 수요는 지역별·시간대별로 계속 쌓이며 정상화되기 어렵다
- 핵심 질문은 컴퓨트 부족이 12~15개월짜리 현상인지, 수년 또는 수십 년짜리 구조적 현상인지다 [37:31]
- 가격 재협상보다 공급 부족의 지속성이 더 중요한 변수로 다뤄진다 [37:46]
- 추론 수요는 현재보다 훨씬 커지고, 애플리케이션은 더 에이전트화될 것으로 예상된다 [37:58]
- 모델도 계속 커지기 때문에 애플리케이션과 모델 양쪽 모두 더 많은 추론과 컴퓨트를 필요로 한다 [38:13]
21. 전력·공간·모듈형 데이터센터가 다음 창업 기회로 떠오른다
- 베이10을 만들지 않는다면 에너지와 전력에 투자하는 Cruso식 경로가 유력하다고 드러낸다 [39:36]
- 컴퓨트를 배치할 공간 수요가 크게 늘어나고 있다는 점이 다음 기회로 드러난다 [39:51]
- 컨테이너가 무역 단위를 표준화해 거대한 경제적 효과를 만든 것처럼, 모듈형 데이터센터도 컴퓨트 단위를 표준화할 수 있다 [40:04]
- 모듈형 데이터센터는 컴퓨트 배치를 산업화하는 새로운 인프라 형태로 드러난다 [40:19]
22. AI 전환에서 혁신하지 않는 기업과 전공 선택 불안이 동시에 압박을 받는다
- 유망한 영역은 AI 인프라 빌드아웃 전반으로 드러난다 [41:22]
- 반대로 혁신하지 않는 기업은 자체 강점을 모델 후훈련과 추론으로 연결하지 못할 때 큰 위험에 놓인다 [41:37]
- 기업 자체에는 여전히 기회가 있다 [41:44]
- 고유한 데이터와 역량을 활용해 모델을 후훈련하고 추론에 적용하는 실행력이 경쟁력을 가른다 [41:59]
23. 컴퓨트 거래와 오픈소스 생태계는 아직 성숙 시장이 아니다
- 컴퓨트 선물 시장은 흥미로운 아이디어로 나온다 [43:01]
- 그러나 실제 컴퓨트 딜은 전담자가 하루 종일 전화를 돌려 물량을 찾는 수준에 가깝다 [43:16]
- 컴퓨트 시장에는 결국 거래 시장이 생길 가능성이 크다 [43:48]
- 현재 구조는 전력 시장처럼 효율적이라기보다 슬리피지와 비효율이 큰 초기 시장에 가깝다 [44:03]
24. 정부·대형 연구소·모듈형 인프라의 인센티브가 후반부 쟁점이 된다
- 미국에서도 정부가 오픈소스 AI에 관여하기 시작했다 [45:27]
- Nvidia, Microsoft, Google도 오픈소스에 많은 노력을 투입하고 있지만, 아직 뚜렷한 성과가 완전히 드러나지는 않았다 [45:42]
25. 컴퓨트 이후 필요한 추상화 계층
- 모듈러 컨테이너 비유는 컴퓨트가 이미 존재한 뒤에도 별도의 실행 계층이 필요하다는 문제로 계속된다 [48:00]
- 논의의 초점은 컨테이너보다 더 깊은 계층으로 내려간다 [48:15]
- 해당 영역은 기존 컨테이너와 같은 수준이 아니라 다른 추상화 레이어에 있다 [48:30]
- 컴퓨트 이후의 구조를 더 낮은 단계에서 다루는 문제로 구분된다 [48:45]
26. 전체 AI 스택의 재편과 기회 영역
- 기회는 특정 지점 하나에 갇히지 않고 전체 AI 스택 전반에 퍼져 있다 [49:00]
- 관심사의 분리는 커널 수준 작업과 Nvidia·Stanford의 ThunderKittens 같은 저수준 최적화 영역까지 영향을 준다 [49:15]
- AI 시장의 핵심 특징은 전체 스택이 빠르게 바뀐다는 점이다 [49:30]
- 기존 구성요소를 버려야 하는 상황이 반복되면서 커널부터 응용까지 다시 경쟁 가능한 영역이 열린다 [49:45]
🧾 결론
- 이 강연의 중심 메시지는 AI 애플리케이션 기업의 장기 경쟁력이 단순히 좋은 프런티어 모델을 잘 호출하는 능력에 머물지 않는다는 점이다.
- 규모가 커질수록 토큰을 비싸게 사서 다시 파는 구조는 수익성 압박을 키우며, 커스텀 모델과 후훈련 모델을 통해 비용 구조와 제품 품질을 직접 통제해야 한다는 논리가 제시된다.
- Base10의 사업 가설은 독립 AI 애플리케이션 레이어가 계속 존재하고, 충분히 좋은 오픈소스 모델이 유지되며, 대규모 컴퓨트 접근권을 확보할 수 있다는 세 조건 위에 놓여 있다.
- 강연자는 인퍼런스가 데이터베이스처럼 제품의 핵심 경로에 들어가면 매우 끈적한 인프라가 되며, 중단 시 고객 제품 자체가 멈추는 고위험·고가치 계층이 된다고 설명한다.
- 검증이 필요한 부분은 Base10의 하루 약 30조 토큰 처리 규모, OpenAI API와 Gemini API보다 크다는 비교, 향후 150,000개 B200 equivalent 수요 같은 수치다. 이는 강연 내 발언으로 정리하되, 투자 판단에는 별도 확인이 필요하다.
📈 투자·시사 포인트
- AI 인프라 투자 관점에서는 프런티어 모델 기업만이 아니라 인퍼런스 플랫폼, 후훈련 파이프라인, 멀티클라우드 GPU 오케스트레이션, 관측성·보안 스택이 중요한 기회 영역으로 보인다.
- 대규모 AI 앱 기업은 매출 성장만큼이나 매출총이익률 개선이 중요해지며, 프런티어 모델 의존도를 낮추는 커스텀 모델 전환 능력이 기업가치의 핵심 변수로 부상할 수 있다.
- GPU 공급 부족, B200 가격 상승, 12~15개월 수준의 공급 대기 가능성은 컴퓨트 접근권 자체가 전략적 해자가 될 수 있음을 시사한다.
- 엔비디아는 CUDA 생태계, 공급망, TSMC 관계, 낮은 자본 비용 측면에서 여전히 강한 우위를 갖지만, 장기적으로는 TPU, Trainium, Cerebras 등 대체 칩과 이기종 추론 아키텍처도 주목 대상이다.
- 전력, 데이터센터 부지, 모듈형 데이터센터, 프로젝트 파이낸싱은 AI 수요 증가의 하부 인프라 병목을 해결하는 영역으로, 강연자는 별도 창업·투자 기회가 될 수 있다고 본다.
- 오픈소스 모델 생태계의 지속 가능성은 Base10 같은 인퍼런스·후훈련 인프라 기업의 구조적 리스크이자 기회다. 충분히 좋은 오픈소스 모델이 부족해지면 프런티어 모델 기업에 대한 의존도가 다시 커질 수 있다.
⚠️ 불확실하거나 확인이 필요한 부분
- 회사명 표기가 섹션 내에서 “베이10”과 “Base10”으로 혼재되어 있어, 공개 노트 작성 전 공식 표기와 대소문자 표기를 확인해야 한다.
- “Bridge, Whisper Flow, Cursor”라는 표현은 앞선 사례의 “Abridge”, “WhisperFlow”와 표기가 달라 보이므로, 실제 발화가 제품명 오류인지 전사·요약 과정의 표기 흔들림인지 확인이 필요하다.
- “하루 약 30조 토큰”, “OpenAI API 제품과 Gemini API보다 더 큰 규모”, “2년 뒤 150,000개 B200 equivalent 필요” 같은 수치는 강한 주장에 해당하므로, transcript 내 발화 기준으로는 인용 가능하지만 외부 사실로 단정하려면 별도 검증이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 공개 노트에 사용하기 전 “베이10/Base10”, “WhisperFlow/Whisper Flow”, “Abridge/Bridge”, “Kimmy K25”의 정확한 고유명사 표기를 영상 자막 또는 원문 transcript 기준으로 정리한다.
- 수치가 큰 주장들, 특히 30조 토큰/일, 150,000 B200 equivalent, GPU 가격 상승, Trainium 매출 run rate는 “강연 내 주장”으로 표기하거나 외부 출처 확인 후 확정 문장으로 바꾼다.
- 오픈소스 모델의 비용 우위와 후훈련 전환 논지는 “강연자의 투자·사업 관점”으로 구분해, 객관적 사실과 전망을 섞어 쓰지 않도록 편집한다.
- Abridge, WhisperFlow, Cursor 사례는 각각 “제품 경험”, “의료 신뢰성”, “코딩 워크플로 비용 구조”라는 서로 다른 논점으로 분리해 노트의 사례 비교표나 요약 문장에 반영한다.
❓ 열린 질문
- 후훈련 모델 전환이 실제로 매출총이익률을 40~70% 수준까지 끌어올릴 수 있는지는 어떤 고객군과 워크로드에서 검증되고 있는가?
- 프런티어 모델 대비 70~90% 저렴한 오픈소스·후훈련 모델 운영비가 지연시간, 품질, 신뢰성까지 포함한 총비용 기준에서도 유지되는가?
- Base10 같은 인퍼런스 플랫폼의 장기 방어력은 소프트웨어 스택, 멀티클라우드 운영 능력, GPU 공급 접근권 중 어디에서 가장 크게 생기는가?