YouTubeStanford Online·2026년 6월 5일·0

Stanford MS&E435 Economics of the AI Supercycle

Quick Summary

Stanford MS&E435의 AI Supercycle 강연은 Applied AI의 승부처가 더 좋은 앱 자체를 넘어, 폭증하는 인퍼런스를 싸고 빠르고 안정적으로 운영하는 커스텀 모델·후훈련·컴퓨트 확보 능력으로 이동하고 있음을 보여준다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

Stanford MS&E435 Economics of the AI Supercycle 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Stanford MS&E435 Economics of the AI Supercycle 내용을 설명하는 본문 이미지

💡 한 줄 결론

Stanford MS&E435의 AI Supercycle 강연은 Applied AI의 승부처가 더 좋은 앱 자체를 넘어, 폭증하는 인퍼런스를 싸고 빠르고 안정적으로 운영하는 커스텀 모델·후훈련·컴퓨트 확보 능력으로 이동하고 있음을 보여준다.

📌 핵심 요점

  1. AI 애플리케이션이 확산될수록 병목은 모델 호출 자체보다 지연시간, 안정성, 멀티클라우드, 보안, 관측성을 포함한 프로덕션 인퍼런스 운영으로 이동한다.
  2. Base10은 Abridge, WhisperFlow 같은 대규모 AI 앱이 프런티어 모델 의존을 줄이고 커스텀·오픈소스·후훈련 모델을 운영하도록 돕는 인퍼런스 인프라 기업으로 설명된다.
  3. 강연자는 프런티어 모델 대비 오픈소스 모델이 약 90일 뒤처져 있지만 실행 비용은 70~90% 낮을 수 있다고 말하며, 대량 워크로드에서는 이 비용 차이가 매출총이익률과 생존 가능성을 좌우한다고 본다.
  4. 후훈련의 핵심은 고객사가 자사 데이터, 사용자 신호, 목적함수를 바탕으로 특화 모델을 만들고, 이를 실제 추론 스택에 연결해 비용뿐 아니라 성능·지연시간·신뢰성까지 통제하는 데 있다.
  5. 인퍼런스 수요가 계속 커지면서 GPU 공급, 전력, 데이터센터 공간, 모듈형 인프라, 칩 생태계, 오픈소스 모델 지속 가능성이 AI 슈퍼사이클의 핵심 경제 변수로 부상한다.

🧩 배경과 문제 정의

  • AI 애플리케이션이 확산되면서 핵심 병목은 모델 개발 자체에서, 모델을 실제 제품 안에서 빠르고 안정적으로 실행하는 프로덕션 인퍼런스 인프라로 이동하고 있다.
  • 베이10은 프런티어 모델 API를 그대로 호출하는 비용 구조를 넘어, 커스텀 모델·후훈련 모델·오픈소스 모델을 대규모 서비스에 올리는 인퍼런스 레이어를 핵심 사업으로 삼는다.
  • 대형 AI 애플리케이션 기업은 낮은 지연시간, 높은 안정성, 멀티클라우드 운영, 보안, 관측성, 비용 최적화를 동시에 필요로 한다. 단순 클라우드 컴퓨트만으로는 전체 인퍼런스 스택을 직접 구축해야 하는 부담이 커진다.

🕒 시간순 섹션별 상세정리

1. 인퍼런스 폭증과 베이10 창업자의 경로

  • 인퍼런스 사용량이 1,000배나 100만 배를 넘어 10억 배까지 늘어날 수 있다는 문제의식에서 논의가 출발한다 [00:09]
  • 베이10은 이처럼 폭발적으로 커질 인퍼런스 수요를 뒷받침하는 인프라 기업으로 묶인다 [00:24]

2. 베이10 설립과 프로덕션 인퍼런스 사업의 형성

  • 2015년부터 여러 회사를 시작했지만 큰 성과를 내지 못했고, 그 경험은 초기 스타트업과 창업에 대한 집착으로 이어졌다 [02:24]
  • 2019년 투힌과 오랜 공동창업자들은 머신러닝이 크게 성장할 것이라고 보고, 그 흐름에 베팅하는 인프라 회사를 세우기로 했다 [02:36]

3. WhisperFlow 사례: 음성 입력을 실시간 텍스트 경험으로 바꾸는 인퍼런스

  • 베이10의 고객에는 AI 창업자들이 많으며, WhisperFlow는 음성을 키보드 입력처럼 텍스트로 변환하는 음성 입력 애플리케이션이다 [03:21]
  • WhisperFlow에서는 사용자가 말하는 즉시 텍스트가 표시되어야 하므로, 지연시간을 극도로 낮추는 것이 사용자 경험의 핵심이다 [04:43]

4. Abridge 사례: 의료 기록 자동화와 높은 신뢰성 요구

  • Abridge는 미국의 거의 모든 의료 시스템에서 쓰이는 헬스케어 ambient scribe 사례로 묶인다 [05:18]
  • Abridge는 전자의무기록 시스템과 깊게 통합되어, 환자 진료 맥락을 임상 노트로 전환한다 [05:33]

5. 대형 클라우드 대신 베이10을 쓰는 이유

  • Abridge나 WhisperFlow처럼 이미 규모를 갖춘 기업도 AWS, GCP, Azure, CoreWeave, Nebius 같은 클라우드 대신 베이10을 선택할 유인이 있다 [07:01]
  • 핵심은 단순히 GPU를 빌리는 것이 아니라, 전체 인퍼런스 운영 스택을 최적화해야 한다는 데 있다 [07:16]

6. 오픈소스·후훈련 모델의 비용 우위와 방어성

  • 오픈소스 또는 후훈련 모델을 쓰면 다음 세대 프런티어 모델이 더 좋아질 위험을 감수해야 한다 [08:29]
  • 그럼에도 규모화 단계에서는 비용과 방어성 때문에 별도의 모델 스택을 구축할 유인이 커진다 [08:44]

7. 대규모 AI 앱에서 후훈련 전환이 생존 문제가 된다

  • Abridge, WhisperFlow, Cursor 같은 대형 고객은 동시에 프런티어 모델의 큰 고객이기도 하다 [12:07]
  • 사용자 기반이 커질수록 자체 후훈련 또는 오픈소스 기반 전환은 더 실존적인 문제가 된다 [12:22]

8. 후훈련 모델 전환은 비용 절감뿐 아니라 성능 통제까지 겨냥한다

  • Cursor가 Anthropic이나 최신 OpenAI 모델에서 Composer 같은 후훈련 모델로 옮기면, 사용자 입장에서는 핵심 엔진이 바뀌는 수준의 변화가 발생한다 [13:29]
  • 이 전환은 단순한 비용 절감이 아니라 제품 경험과 성능 통제력을 직접 바꾸는 결정이다 [13:44]

9. 후훈련 워크플로는 고객의 목적함수와 데이터에서 시작한다

  • 후훈련의 출발점은 고객이 어떤 모델을 기반으로 무엇을 최적화할지 정하는 것이다 [16:38]
  • 이 목적함수는 자사 제품, 사용자, 비즈니스 맥락에 맞춰 고객이 직접 정의해야 한다 [16:53]

10. 의료 음성 인식 사례에서 특화 모델의 경제성이 드러난다

  • 의료용 speech-to-text 모델의 핵심 목적함수는 전사 오류를 줄이는 것이다 [17:32]
  • Kimmy K25 같은 베이스 모델에 고객 데이터셋을 결합해 의료 영역에 맞춘 후훈련 모델을 만든다 [17:47]

11. 고객 데이터 신뢰는 보안 경계와 실행 속도 사이에서 결정된다

  • 고객 데이터는 기업에 “왕국의 열쇠”에 가까운 핵심 자산이기 때문에 외부 위임 장벽이 높다 [18:28]
  • 베이10은 대형 고객과의 협업 이력과 브랜드 신뢰를 바탕으로 데이터 위임에 대한 부담을 낮춘다 [18:43]

12. 오픈소스 모델의 지속 가능성이 베이10의 구조적 베팅이 된다

  • 베이10의 핵심 베팅 중 하나는 독립적인 AI 애플리케이션 레이어가 앞으로도 계속 존재한다는 것이다 [20:33]
  • 또 다른 베팅은 오픈소스 모델이 충분히 발전해 후훈련 기반 모델로 계속 활용될 수 있다는 점이다 [20:48]

13. 모델 다양성과 미국 오픈소스의 필요성

  • 지능이 소수의 개인이나 기업에 집중되는 구조는 역사적으로 권력 집중의 부작용을 키울 수 있다 [24:16]
  • 막대한 이익 동기를 가진 기업들이 사회 전체의 도덕 기준을 사실상 결정하는 구도는 위험하다고 지적된다 [24:31]

14. 하드웨어 생태계와 엔비디아의 현재 우위

  • 현재 대부분의 추론 작업은 엔비디아 하드웨어 위에서 실행된다 [26:00]
  • Trainium은 약 200억 달러 매출 run rate를 냈고, TPU, Cerebras, Dmatrix, SambaNova 같은 대안 칩도 추론 생태계에 진입하고 있다 [26:15]

15. 이기종 추론 아키텍처와 속도 최적화

  • 추론은 prefill과 decode처럼 성격이 다른 작업 단계로 나뉜다 [27:53]
  • 모든 연산을 하나의 칩에서 처리하는 현재 구조가 최종적인 형태는 아닐 가능성이 크다 [28:08]

16. 20개 클라우드와 87개 클러스터를 묶는 추론 공급 전략

  • 베이10은 약 20개 클라우드와 87개 클러스터를 활용해 분산된 GPU 공급을 하나의 자원처럼 묶는다 [29:57]
  • 고객은 GPU의 출처를 신경 쓰지 않고 사용할 수 있는 fungible compute 구조를 제공받는다 [30:12]

17. 임대 중심 전략의 한계와 GPU 공급 부족

  • 기존 전략은 소프트웨어가 스택의 sticky한 부분이라는 판단에 가까웠다 [32:43]
  • 반대로 클라우드 사업자들은 GPU 접근권 자체가 sticky한 부분이라고 본다 [32:58]
  • 데이터센터를 직접 지을 역량이나 이유가 없었기 때문에 임대는 속도를 위한 선택이었다 [33:14]
  • 그러나 앞으로는 GPU 공급 부족이 알려진 것보다 훨씬 심각한 문제로 커진다 [33:29]

18. 컴퓨트 접근이 추론의 전략적 우위로 전환

  • 추론에서 전략적 우위는 컴퓨트 접근성으로 이동하고 있다 [34:53]
  • 단순히 소프트웨어를 잘 실행하는 능력보다 충분한 GPU를 확보하는 능력이 더 중요해진다 [35:08]
  • 현재 베이10의 추론 서비스는 전체 고객 기준으로 하루 약 30조 토큰을 처리한다 [35:20]
  • 이 규모는 OpenAI의 API 제품과 Gemini API보다 더 큰 수준으로 드러난다 [35:35]

19. 자체 컴퓨트 확보가 비용과 생존 리스크를 동시에 좌우한다

  • 70억 달러 수준의 컴퓨트 지출은 임대만으로 안정적으로 접근하기 어려운 규모다 [36:03]
  • 칩 공급자와의 강한 관계, 직접 구매, 직접 구축이 추론 수요 충족의 조건이 된다 [36:18]
  • 자체 인프라 구축은 Oracle 같은 스케일드 클라우드의 약 30% 총마진을 피할 수 있게 한다 [36:28]
  • 그 결과 동일한 컴퓨트를 약 30% 저렴하게 확보하는 경제적 이점이 생긴다 [36:43]

20. 추론 수요는 지역별·시간대별로 계속 쌓이며 정상화되기 어렵다

  • 핵심 질문은 컴퓨트 부족이 12~15개월짜리 현상인지, 수년 또는 수십 년짜리 구조적 현상인지다 [37:31]
  • 가격 재협상보다 공급 부족의 지속성이 더 중요한 변수로 다뤄진다 [37:46]
  • 추론 수요는 현재보다 훨씬 커지고, 애플리케이션은 더 에이전트화될 것으로 예상된다 [37:58]
  • 모델도 계속 커지기 때문에 애플리케이션과 모델 양쪽 모두 더 많은 추론과 컴퓨트를 필요로 한다 [38:13]

21. 전력·공간·모듈형 데이터센터가 다음 창업 기회로 떠오른다

  • 베이10을 만들지 않는다면 에너지와 전력에 투자하는 Cruso식 경로가 유력하다고 드러낸다 [39:36]
  • 컴퓨트를 배치할 공간 수요가 크게 늘어나고 있다는 점이 다음 기회로 드러난다 [39:51]
  • 컨테이너가 무역 단위를 표준화해 거대한 경제적 효과를 만든 것처럼, 모듈형 데이터센터도 컴퓨트 단위를 표준화할 수 있다 [40:04]
  • 모듈형 데이터센터는 컴퓨트 배치를 산업화하는 새로운 인프라 형태로 드러난다 [40:19]

22. AI 전환에서 혁신하지 않는 기업과 전공 선택 불안이 동시에 압박을 받는다

  • 유망한 영역은 AI 인프라 빌드아웃 전반으로 드러난다 [41:22]
  • 반대로 혁신하지 않는 기업은 자체 강점을 모델 후훈련과 추론으로 연결하지 못할 때 큰 위험에 놓인다 [41:37]
  • 기업 자체에는 여전히 기회가 있다 [41:44]
  • 고유한 데이터와 역량을 활용해 모델을 후훈련하고 추론에 적용하는 실행력이 경쟁력을 가른다 [41:59]

23. 컴퓨트 거래와 오픈소스 생태계는 아직 성숙 시장이 아니다

  • 컴퓨트 선물 시장은 흥미로운 아이디어로 나온다 [43:01]
  • 그러나 실제 컴퓨트 딜은 전담자가 하루 종일 전화를 돌려 물량을 찾는 수준에 가깝다 [43:16]
  • 컴퓨트 시장에는 결국 거래 시장이 생길 가능성이 크다 [43:48]
  • 현재 구조는 전력 시장처럼 효율적이라기보다 슬리피지와 비효율이 큰 초기 시장에 가깝다 [44:03]

24. 정부·대형 연구소·모듈형 인프라의 인센티브가 후반부 쟁점이 된다

  • 미국에서도 정부가 오픈소스 AI에 관여하기 시작했다 [45:27]
  • Nvidia, Microsoft, Google도 오픈소스에 많은 노력을 투입하고 있지만, 아직 뚜렷한 성과가 완전히 드러나지는 않았다 [45:42]

25. 컴퓨트 이후 필요한 추상화 계층

  • 모듈러 컨테이너 비유는 컴퓨트가 이미 존재한 뒤에도 별도의 실행 계층이 필요하다는 문제로 계속된다 [48:00]
  • 논의의 초점은 컨테이너보다 더 깊은 계층으로 내려간다 [48:15]
  • 해당 영역은 기존 컨테이너와 같은 수준이 아니라 다른 추상화 레이어에 있다 [48:30]
  • 컴퓨트 이후의 구조를 더 낮은 단계에서 다루는 문제로 구분된다 [48:45]

26. 전체 AI 스택의 재편과 기회 영역

  • 기회는 특정 지점 하나에 갇히지 않고 전체 AI 스택 전반에 퍼져 있다 [49:00]
  • 관심사의 분리는 커널 수준 작업과 Nvidia·Stanford의 ThunderKittens 같은 저수준 최적화 영역까지 영향을 준다 [49:15]
  • AI 시장의 핵심 특징은 전체 스택이 빠르게 바뀐다는 점이다 [49:30]
  • 기존 구성요소를 버려야 하는 상황이 반복되면서 커널부터 응용까지 다시 경쟁 가능한 영역이 열린다 [49:45]

🧾 결론

  • 이 강연의 중심 메시지는 AI 애플리케이션 기업의 장기 경쟁력이 단순히 좋은 프런티어 모델을 잘 호출하는 능력에 머물지 않는다는 점이다.
  • 규모가 커질수록 토큰을 비싸게 사서 다시 파는 구조는 수익성 압박을 키우며, 커스텀 모델과 후훈련 모델을 통해 비용 구조와 제품 품질을 직접 통제해야 한다는 논리가 제시된다.
  • Base10의 사업 가설은 독립 AI 애플리케이션 레이어가 계속 존재하고, 충분히 좋은 오픈소스 모델이 유지되며, 대규모 컴퓨트 접근권을 확보할 수 있다는 세 조건 위에 놓여 있다.
  • 강연자는 인퍼런스가 데이터베이스처럼 제품의 핵심 경로에 들어가면 매우 끈적한 인프라가 되며, 중단 시 고객 제품 자체가 멈추는 고위험·고가치 계층이 된다고 설명한다.
  • 검증이 필요한 부분은 Base10의 하루 약 30조 토큰 처리 규모, OpenAI API와 Gemini API보다 크다는 비교, 향후 150,000개 B200 equivalent 수요 같은 수치다. 이는 강연 내 발언으로 정리하되, 투자 판단에는 별도 확인이 필요하다.

📈 투자·시사 포인트

  • AI 인프라 투자 관점에서는 프런티어 모델 기업만이 아니라 인퍼런스 플랫폼, 후훈련 파이프라인, 멀티클라우드 GPU 오케스트레이션, 관측성·보안 스택이 중요한 기회 영역으로 보인다.
  • 대규모 AI 앱 기업은 매출 성장만큼이나 매출총이익률 개선이 중요해지며, 프런티어 모델 의존도를 낮추는 커스텀 모델 전환 능력이 기업가치의 핵심 변수로 부상할 수 있다.
  • GPU 공급 부족, B200 가격 상승, 12~15개월 수준의 공급 대기 가능성은 컴퓨트 접근권 자체가 전략적 해자가 될 수 있음을 시사한다.
  • 엔비디아는 CUDA 생태계, 공급망, TSMC 관계, 낮은 자본 비용 측면에서 여전히 강한 우위를 갖지만, 장기적으로는 TPU, Trainium, Cerebras 등 대체 칩과 이기종 추론 아키텍처도 주목 대상이다.
  • 전력, 데이터센터 부지, 모듈형 데이터센터, 프로젝트 파이낸싱은 AI 수요 증가의 하부 인프라 병목을 해결하는 영역으로, 강연자는 별도 창업·투자 기회가 될 수 있다고 본다.
  • 오픈소스 모델 생태계의 지속 가능성은 Base10 같은 인퍼런스·후훈련 인프라 기업의 구조적 리스크이자 기회다. 충분히 좋은 오픈소스 모델이 부족해지면 프런티어 모델 기업에 대한 의존도가 다시 커질 수 있다.

⚠️ 불확실하거나 확인이 필요한 부분

  • 회사명 표기가 섹션 내에서 “베이10”과 “Base10”으로 혼재되어 있어, 공개 노트 작성 전 공식 표기와 대소문자 표기를 확인해야 한다.
  • “Bridge, Whisper Flow, Cursor”라는 표현은 앞선 사례의 “Abridge”, “WhisperFlow”와 표기가 달라 보이므로, 실제 발화가 제품명 오류인지 전사·요약 과정의 표기 흔들림인지 확인이 필요하다.
  • “하루 약 30조 토큰”, “OpenAI API 제품과 Gemini API보다 더 큰 규모”, “2년 뒤 150,000개 B200 equivalent 필요” 같은 수치는 강한 주장에 해당하므로, transcript 내 발화 기준으로는 인용 가능하지만 외부 사실로 단정하려면 별도 검증이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • 공개 노트에 사용하기 전 “베이10/Base10”, “WhisperFlow/Whisper Flow”, “Abridge/Bridge”, “Kimmy K25”의 정확한 고유명사 표기를 영상 자막 또는 원문 transcript 기준으로 정리한다.
  • 수치가 큰 주장들, 특히 30조 토큰/일, 150,000 B200 equivalent, GPU 가격 상승, Trainium 매출 run rate는 “강연 내 주장”으로 표기하거나 외부 출처 확인 후 확정 문장으로 바꾼다.
  • 오픈소스 모델의 비용 우위와 후훈련 전환 논지는 “강연자의 투자·사업 관점”으로 구분해, 객관적 사실과 전망을 섞어 쓰지 않도록 편집한다.
  • Abridge, WhisperFlow, Cursor 사례는 각각 “제품 경험”, “의료 신뢰성”, “코딩 워크플로 비용 구조”라는 서로 다른 논점으로 분리해 노트의 사례 비교표나 요약 문장에 반영한다.

❓ 열린 질문

  • 후훈련 모델 전환이 실제로 매출총이익률을 40~70% 수준까지 끌어올릴 수 있는지는 어떤 고객군과 워크로드에서 검증되고 있는가?
  • 프런티어 모델 대비 70~90% 저렴한 오픈소스·후훈련 모델 운영비가 지연시간, 품질, 신뢰성까지 포함한 총비용 기준에서도 유지되는가?
  • Base10 같은 인퍼런스 플랫폼의 장기 방어력은 소프트웨어 스택, 멀티클라우드 운영 능력, GPU 공급 접근권 중 어디에서 가장 크게 생기는가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.