Stanford CS25: Transformers United V6 I From Language Models to Native Multimodal Intelligence
Quick Summary
Stanford CS25의 Native Multimodal Intelligence 논의는 Language Models의 토큰화·스케일링 원리를 이미지·오디오·비디오로 확장하되, 멀티모달 생성과 이해를 하나의 표현으로 통합하는 문제는 아직 열린 연구 과제임을 보여준다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Stanford CS25의 Native Multimodal Intelligence 논의는 Language Models의 토큰화·스케일링 원리를 이미지·오디오·비디오로 확장하되, 멀티모달 생성과 이해를 하나의 표현으로 통합하는 문제는 아직 열린 연구 과제임을 보여준다.
📌 핵심 요점
- 네이티브 멀티모달 모델의 출발점은 텍스트, 이미지, 오디오, 비디오를 transformer가 처리할 수 있는 토큰 또는 dense vector 표현으로 바꾸고, 이를 공통 시퀀스로 학습하는 것이다.
- 멀티모달 입력 모델은 이미지·비디오를 이해해 텍스트로 답하는 데 초점을 두는 반면, 옴니모델은 텍스트뿐 아니라 이미지·오디오 같은 비텍스트 모달리티도 출력할 수 있어야 한다.
- Chameleon은 모든 모달리티를 이산 토큰으로 바꿔 텍스트와 이미지를 인터리브 시퀀스로 학습하려는 접근이지만, 이미지 이해의 정보 손실과 이미지 생성의 토큰 비효율이라는 한계를 드러낸다.
- Transfusion은 텍스트에는 자기회귀 언어모델링을, 이미지에는 확산 기반 생성을 결합해 이산 이미지 토큰 방식보다 더 나은 이미지 생성 품질과 토큰 효율을 추구한다.
- Mixture of Transformers는 모달리티별로 파라미터 경로를 분리해 비텍스트 생성 성능을 높이지만, 이미지 이해와 이미지 생성, 물리 세계 이해와 로보틱스까지 모두 해결하는 일반 해법은 아직 확립되지 않았다.
🧩 배경과 문제 정의
- 대형 언어모델은 상징 정보를 대상으로 한 다음 토큰 예측과 스케일링을 통해 지식 습득, 지시 따르기, 추론, 계획 능력을 보여주었다.
- 그러나 언어만 처리하는 모델은 이미지·오디오·비디오가 함께 존재하는 디지털 환경이나 실시간 물리 세계와의 상호작용을 충분히 다루기 어렵다.
- 네이티브 멀티모달 모델의 핵심 과제는 서로 다른 형태의 신호를 토큰화해 Transformer가 함께 처리하도록 만들고, 언어모델의 학습 원리를 멀티모달 지능으로 확장하는 것이다.
🕒 시간순 섹션별 상세정리
1. 강연 맥락과 대형 언어모델의 기본 전제
- Victoria Lin은 Thinking Machines Lab에서 네이티브 멀티모달 지능을 연구하며, 복잡하고 지식 집약적인 문제를 푸는 AI 시스템에 관심을 둔다 [00:11]
- 이번 강연은 공개 자료와 개인 의견에 기반하며, 논의의 초점은 네이티브 멀티모달 언어모델에 맞춰져 있다 [00:52]
2. 언어만으로 부족한 이유와 멀티모달 목표
- 언어 모델링만으로는 충분하지 않다. 디지털 세계와 물리 세계에는 이미지, 오디오, 비디오처럼 다양한 모달리티의 정보가 함께 존재하기 때문이다 [02:52]
- 인터넷 환경과 현실 세계의 실시간 AI 상호작용에서는 여러 종류의 멀티모달 정보를 동시에 이해하고 처리해야 한다 [03:15]
3. 네이티브 멀티모달 모델의 핵심 관점
- 네이티브 멀티모달 언어모델은 언어모델과의 비유로 이해할 수 있으며, 핵심은 다양한 입력을 Transformer가 처리할 수 있는 토큰으로 변환하는 데 있다 [04:28]
- 이미지, 비디오, 오디오처럼 입력 형태가 달라도 모델은 각 신호를 토큰 정보로 바꿔 공통 처리 경로에 올린다 [04:44]
4. 텍스트·이미지·오디오·비디오의 토큰화 방식
- 텍스트는 대형 언어모델처럼 byte pair encoding 등을 통해 작은 토큰 단위로 나뉘며, 이 방식이 멀티모달 토큰화의 기본 출발점이 된다 [05:18]
- 이미지는 patchify를 통해 16×16 픽셀 같은 표준 크기의 조각으로 나뉘고, 각 조각의 벡터 표현이 순서화되어 이미지 토큰이 된다 [05:30]
5. 멀티모달 입력 모델과 옴니모델의 차이
- 한 유형의 멀티모달 모델은 이미지·비디오 같은 입력을 조건으로 사용하지만, 손실 계산과 출력은 텍스트 토큰에만 맞춘다 [07:21]
- 이 구조는 이미지나 비디오를 입력받아 텍스트로 답하는 이해 능력을 만들며, Gemini, Qwen, Kimi 같은 주요 제품이 이 방식에 가깝다 [07:47]
6. 언어모델 원리의 이전과 남은 연구 질문
- 토큰화 관점을 적용하면 대형 언어모델의 아키텍처와 학습 원리를 멀티모달 패러다임으로 옮길 수 있고, 혼합 모달 프롬프트와 지시 따르기도 가능해진다 [09:01]
- 멀티모달 모델은 프롬프트를 활용해 복잡한 멀티모달 작업을 풀고, 멀티모달 정보 위에서 계획과 추론을 수행할 수 있다 [09:23]
7. Chameleon의 이산 토큰화 가설
- Chameleon 계열은 모든 모달리티를 이산 토큰으로 바꿀 수 있는지에서 출발하며, 가능하다면 멀티모달 세계도 언어모델처럼 토큰 시퀀스로 모델링할 수 있다 [12:30]
- 이미지는 패치로 나뉜 뒤 연속 인코더를 거쳐 패치 임베딩이 되고, 학습된 벡터 코드북에서 가장 가까운 이산 대응값을 찾는 방식으로 토큰화된다 [13:20]
8. 이미지·텍스트 인터리브 학습과 혼합 문서 생성
- 이미지 토큰과 텍스트 토큰은 인터리브 시퀀스로 결합되며, 그 위에 교차엔트로피 기반 언어모델 학습 목표가 적용된다 [14:13]
- 모델은 원래 순서를 유지하면서 이미지와 텍스트가 섞인 결과를 생성할 수 있고, 혼합 모달 문서를 직접 만드는 능력을 보인다 [14:29]
9. Chameleon의 한계와 Transfusion의 연속 표현 전환
- 이미지 이산화는 이해 작업에서 정보 손실을 일으키며, SigLIP 같은 연속 이미지 인코딩을 쓰는 최신 멀티모달 언어모델에 비해 이미지 이해 성능 격차가 커진다 [15:41]
- 생성에서도 이미지 이산화는 토큰 효율 문제를 만들고, 잘 형성된 이미지를 샘플링하려면 많은 데이터로 학습해야 하는 부담이 생긴다 [16:08]
10. Transfusion의 자기회귀·확산 결합 구조
- Transfusion은 하나의 Transformer 안에서 텍스트의 자기회귀 언어모델링과 이미지의 확산 기반 생성을 결합한다 [17:49]
- 입력은 텍스트와 이미지가 섞인 시퀀스로 유지하되, 텍스트에는 표준 자기회귀 모델링을 적용하고 이미지 구간에는 확산 연산을 적용한다 [17:59]
11. Transfusion의 효율성과 남은 이해·생성 인코딩 딜레마
- Transfusion은 이산 토큰 기반 이미지 생성보다 적은 토큰 예산으로 더 빠르게 높은 이미지 품질을 만든다 [19:06]
- 이 구조는 자기회귀 next-token prediction과 확산 objective를 자연스럽게 결합해, 이미지 생성 품질과 토큰 효율을 동시에 개선한다 [19:22]
12. Mixture of Transformers의 모달리티별 파라미터 분리
- 멀티모달 Transformer는 텍스트와 이미지처럼 정보 밀도와 데이터 성격이 다른 입력을 함께 처리하므로, 모든 모달리티가 동일한 파라미터를 공유해야 하는지가 핵심 쟁점이 된다 [21:13]
- Mixture of Transformers는 모달리티별로 독립적인 Transformer 파라미터 세트를 두며, 대표적으로 attention의 QKV projection과 feed-forward layer를 분리한다 [21:55]
13. MOT 실험 설정과 비교 기준
- 학습 목표는 모달리티 토큰별 cross entropy objective를 쓰는 방식부터, 텍스트에는 autoregressive objective를, 이미지에는 diffusion objective를 적용하는 Transfusion 방식까지 달라질 수 있다 [24:00]
- MOT 아키텍처 실험은 1억 6300만 파라미터부터 70억 파라미터까지 여러 크기의 모델을 훈련하는 scaling ladder로 구성되며, dense baseline과 성능을 비교한다 [24:23]
14. 비텍스트 생성에서 두드러지는 MOT의 성능 이점
- MOT는 텍스트 생성에서는 dense 변형과 비슷한 성능을 유지하면서, 이미지 같은 비텍스트 모달리티 생성에서는 더 큰 개선을 보인다 [25:34]
- 이미지 생성 loss는 MOT에서 더 낮게 나타나며, sampling 기반 평가에서도 dense 변형보다 우수한 결과가 확인된다 [26:09]
15. Mixture of Experts와 결합한 모달리티별 확장
- MOT는 Mixture of Experts와 결합할 수 있으며, 모달리티마다 Transformer 파라미터 한 벌을 두는 대신 expert 수를 다르게 배치하는 방식으로 확장된다 [27:28]
- 텍스트 성능은 expert 수 증가에 특히 잘 반응하지만, 이미지 생성 능력은 expert 증가에 따른 확장 속도가 텍스트만큼 빠르지 않다 [27:55]
16. 안정적인 혼합 모달리티 학습과 기존 모델 확장
- MOT는 모달리티별 파라미터와 토큰의 deterministic routing을 사용해, 이미지와 음성 같은 비텍스트 모달리티의 생성 품질을 크게 높일 수 있다 [28:23]
- 모달리티마다 다른 파라미터 집합을 두면 mixed-modal training의 안정성과 controllability가 향상되며, 모달리티별 asynchronous training도 가능해진다 [28:51]
17. 이미지 이해와 이미지 생성의 분리 문제
- 이미지 이해는 image-to-text에, 이미지 생성은 text-to-image에 가까우므로, 두 방향을 하나의 모델에서 모두 최적으로 통합할 수 있는지가 핵심 질문이 된다 [30:02]
- MOT 맥락에서 image modality는 주로 이미지 생성을 의미하며, 모달리티 분리가 이미지 이해 능력까지 돕는다는 결과는 확인되지 않았다 [30:58]
18. 계획 후 이미지 생성과 embodied AI로 확장되는 MOT 계열 구조
- Bagel 계열 구조에서는 image understanding과 image generation이 서로 다른 파라미터를 통과하며, 현재로서는 이미지 생성과 이해를 효과적으로 완전히 통합하는 방법이 아직 뚜렷하지 않다 [32:46]
- mixed-modal sequence를 autoregressive generation으로 모델링하면, 최종 이미지를 만들기 전에 thinking trace text를 먼저 생성하는 planning-before-generation 능력을 구현할 수 있다 [33:12]
19. 생성 학습이 이해 능력으로 전이되지 않는 한계
- omni model을 비텍스트 모달리티 생성 능력까지 추가 학습해도, 이미지 생성에 많은 token budget을 쓰는 일이 이미지 이해 과제 성능 향상으로 곧바로 이어지지는 않는다 [36:01]
- 언어 모델은 next token prediction으로 강한 능력을 얻지만, 비디오 모델은 next frame prediction만으로 훨씬 강해지지 않는 현상이 관찰된다 [36:46]
20. 언어와 시각 데이터의 구조적 차이
- 언어는 인간 인지의 고도로 압축된 추상 표현이어서, next token prediction 학습 안에 인간의 추론 과정과 행동 의도가 일부 포함된다 [37:17]
- 이미지와 비디오는 세계에 대한 수동적 감각 관측에 가깝고, 인간의 주관적 해석 자체가 아니기 때문에 언어 학습과 같은 방식의 결과를 기대하기 어렵다 [37:41]
21. 현재 omni language model의 적용 범위와 남은 물리 세계 문제
- Chameleon, Transfusion, Mixture of Experts 같은 omni language model은 멀티모달 정보 처리라는 제한된 하위 문제에는 강하지만, 전체 멀티모달 지능 문제를 해결하지는 못한다 [39:11]
- 야생의 물리 세계에서는 시공간 이해, 실시간 이해, 로보틱스 제어가 중요해지고, 이런 영역에는 아직 더 나은 표현과 처리 방식이 필요하다 [39:39]
22. 모달리티별 특화 모델과 통합 시스템의 과제
- 디지털 정보 이해, 물리 지능, 로보틱스는 모두 멀티모달 처리를 요구하지만, 필요한 능력과 데이터 구조가 서로 달라 단일 접근만으로 포괄하기 어렵다 [41:05]
- 단기적으로는 특정 능력에 맞춘 멀티모달 모델이 늘어날 가능성이 크고, 장기 과제는 이들을 하나의 일관된 시스템으로 통합하는 방식이다 [41:17]
23. 세계모델 계열과 물리 세계 표현의 필요성
- JEPA 계열은 멀티모달 공간이 매우 풍부하고 응용별 문제가 다르기 때문에, 영역에 따라 서로 다른 표현 방식이 필요할 수 있다는 맥락에서 의미가 있다 [44:24]
- 인포그래픽, PDF, 코딩처럼 디지털 정보 이해에 가까운 작업에서는 현재의 pretrain-and-encoder 패러다임이 잘 작동하는 것으로 보인다 [44:54]
24. 비디오 생성 학습의 지식 작업 전이 가능성과 현재 한계
- 비디오 생성 학습이 일반 지식 작업 능력을 높일 수 있는지에 대해서는, 현재까지 그런 전이가 매우 효과적이라는 근거가 충분하지 않다 [46:26]
- 비디오 생성만으로 학습한 모델이 generic task에서 크게 좋아지는 사례는 아직 뚜렷하지 않고, 생성 능력과 지식 작업 능력 사이의 직접 전이는 제한적이다 [46:39]
25. 텍스트를 이미지로 렌더링하는 방식의 가능성과 비효율
- 텍스트를 흑백 이미지나 OCR 이미지로 렌더링해 입력하면 모달리티 통합이 가능해 보이지만, 단어 토큰화보다 토큰 효율이 낮고 텍스트의 상징적 구조를 잃을 수 있다 [48:14]
- VAE가 텍스트 렌더링 같은 특수한 사용 사례에 맞춰 만들어지지 않았다는 점에서, 픽셀 수준 예측과 이미지 압축 방식이 병목으로 작동할 수 있다 [49:19]
26. 풍부한 텍스트 표현과 학습 안정성의 상충
- 텍스트를 이미지 패치처럼 다루면 하이라이트·이탤릭·인포그래픽 같은 시각적 의미를 별도 태그 없이 담을 수 있고, 텍스트와 이미지의 경계도 더 자연스럽게 통합될 수 있다 [51:21]
- 텍스트 모달리티를 이미지 표현으로 흡수하면 오디오와 그림 중심의 단순한 학습 구성이 가능해지며, downstream MoE 구성이나 학습 안정성 측면에서도 이점을 기대할 수 있다 [51:40]
27. 객체 중심 시각 표현과 생성·이해 통합
- 시각 요소를 객체지향적이고 의미론적인 임베딩으로 만들면, 인간이 함께 움직이는 조각을 하나의 대상으로 이해하는 방식에 더 가까운 표현을 얻을 수 있다 [53:45]
- 이러한 의미론적 시각 표현은 JEPA 계열 연구와 맞닿아 있으며, 픽셀·패치 수준을 넘어 사물 단위의 추상화를 다루는 방향이 중요해진다 [54:01]
28. 이미지 모델링을 언어 모델링에 가깝게 만드는 방향
- 언어 모델이 입력과 출력을 모두 텍스트 표현으로 다루듯, 이미지도 생성과 이해에 공통으로 쓰이는 표현을 갖게 되면 이미지 모델링은 언어 모델링에 더 가까워진다 [55:26]
- 이 방향은 철학적으로 자연스럽고 연구도 진전되고 있지만, 하나의 표현이 시각 세계의 생성 품질과 이해 능력을 동시에 충분히 담아야 한다는 부담이 남는다 [55:37]
29. 다음 토큰 예측의 표면 목표와 잠재 구조 학습
- 다음 토큰 예측은 이미 매우 효과적인 학습 목표로 검증됐으며, 겉으로는 단순한 예측 과제처럼 보여도 내부 네트워크 연결은 훨씬 복잡하게 작동한다 [57:10]
- Transformer와 attention 구조 안에서는 추상화와 구조가 latent space에 숨어 학습될 수 있고, 다음 토큰 예측은 그 내부 계산이 드러나는 표면 형식일 수 있다 [57:17]
30. 공간 추론과 로보틱스에서의 멀티모달 전이
- 공간 추론과 물리 환경 이해에서는 로보틱스 연구실의 vision-language-action 모델을 중심으로 많은 진전이 나타나고 있다 [58:20]
- Physical Intelligence 계열 모델처럼 처음부터 새로 학습하기보다 vision-language model을 backbone으로 활용하는 접근이 있으며, 멀티모달 언어 모델링이 공간 이해로 긍정적으로 전이될 수 있다 [58:58]
31. 텍스트 기반 추론 가정과 순수 비전 추론 가능성
- 비디오 추론이 약한 이유로 좋은 비디오 데이터 부족이 제기되며, 텍스트에는 추론·독백·멈춤이 자연스럽게 포함되지만 비디오에는 그런 구조가 드물다는 문제가 나온다 [1:00:14]
- 비디오 모델에 텍스트 프레임이나 오디오 형태로 언어를 섞으면 추론 문제가 완화될 수 있다는 가정이 나오며, 이는 추론을 원할 때 결국 텍스트로 내려가야 한다는 주장으로 계속된다 [1:00:40]
32. 비디오 생성의 UX 제약과 언어 스켈레톤의 현재 효용
- 비디오 추론 데이터는 텍스트보다 만들기 어렵고, 텍스트 챗에서는 추론 부분을 잘라내도 결과가 유지되지만 비디오 생성물은 사용자에게 그대로 전달되기 때문에 숨겨진 추론 공간을 두기 어렵다 [1:02:32]
- 비디오에서는 별도의 추론 프레임을 만든 뒤 후처리로 제거하기 어렵고 생성 속도도 이미 느리므로, 현 단계에서는 모든 프레임이 의미를 가져야 한다는 UX·효율성 제약 속에서 언어 스켈레톤의 보조적 효용이 남는다 [1:02:53]
🧾 결론
- 이 강연의 핵심은 멀티모달 AI가 단순히 언어모델에 이미지를 붙이는 문제가 아니라, 서로 다른 감각 신호를 어떤 표현으로 묶고 어떤 학습 목표로 확장할 것인가의 문제라는 점이다.
- 언어모델의 성공 공식인 다음 토큰 예측, 스케일링, transformer 구조는 멀티모달 모델에도 강력한 출발점이지만, 이미지·비디오·오디오에는 언어와 다른 데이터 구조와 학습 신호가 존재한다.
- Chameleon, Transfusion, Mixture of Transformers는 각각 이산 토큰화, 연속 표현·확산 결합, 모달리티별 파라미터 분리라는 방식으로 이 문제를 풀려는 대표적 방향으로 제시된다.
- 특히 이미지 생성 능력을 키우는 학습이 이미지 이해 능력 향상으로 곧바로 이어지지는 않는다는 점은, 생성과 이해를 하나의 모델 안에서 어떻게 연결할지에 대한 중요한 한계를 보여준다.
- 물리 세계, 실시간 상호작용, 로보틱스까지 포함한 멀티모달 지능은 현재의 옴니 언어모델만으로는 충분히 해결되지 않으며, 더 효율적인 표현과 아키텍처 탐색이 필요하다.
📈 투자·시사 포인트
- 멀티모달 AI의 경쟁력은 단순한 모델 크기보다 텍스트·이미지·오디오·비디오를 어떤 표현으로 통합하고, 생성과 이해를 어떻게 분리하거나 결합하느냐에서 갈릴 가능성이 크다.
- 비텍스트 생성에서는 Transfusion이나 Mixture of Transformers처럼 모달리티별 특성을 반영한 구조가 중요해질 수 있으며, 이는 이미지·오디오 생성 모델의 품질과 비용 효율을 좌우하는 요소가 된다.
- 텍스트는 여전히 추론, 계획, 에이전트 능력의 강한 기반으로 설명되며, 단기적으로는 다른 모달리티를 텍스트 기반 추상 공간과 연결하는 접근이 실용적일 가능성이 높다.
- 로보틱스와 embodied AI에서는 action vector까지 별도 모달리티로 다루는 구조가 중요해질 수 있고, vision-language model을 backbone으로 활용하는 접근에서 멀티모달 전이 가능성이 언급된다.
- 검증 필요: 강연에서는 멀티모달 scaling law, 비디오 생성 학습의 일반 지식 작업 전이, 순수 시각 공간에서의 추론 가능성이 아직 충분히 정리되지 않은 열린 문제로 제시된다.
⚠️ 불확실하거나 확인이 필요한 부분
- 강연자는 논의가 공개 자료와 개인 의견에 기반한다고 전제했으므로, 특정 모델·제품·논문에 대한 설명은 공식 문서나 원 논문 기준으로 재확인이 필요하다.
- Gemini, Qwen, Kimi, GPT-4o 같은 제품 사례는 강연 시점의 기능 설명에 가깝기 때문에, 현재 버전의 실제 입력·출력 모달리티 범위와는 다를 수 있다.
- Chameleon, Transfusion, Mixture of Transformers, Bagel 계열의 성능 비교는 강연에서 언급된 실험 설정과 평가 지표에 의존하므로, 파라미터 수·데이터셋·loss·샘플링 평가 기준을 원 논문에서 확인해야 한다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- Chameleon, Transfusion, Mixture of Transformers, Bagel 관련 원 논문을 찾아 강연 요약의 모델명·구조·실험 결과가 정확한지 대조한다.
- 멀티모달 모델 유형을 “입력 멀티모달·출력 텍스트” 모델과 “텍스트·이미지·오디오 등을 생성하는 옴니모델”로 나눠 비교 표를 작성한다.
- 이미지 이해용 인코딩과 이미지 생성용 인코딩이 왜 분리되는지, SigLIP·VAE·diffusion 표현을 중심으로 별도 설명 메모를 만듭니다.
- Mixture of Transformers가 dense Transformer와 MoE baseline 대비 어떤 조건에서 유리한지, 텍스트 생성과 비텍스트 생성 성능을 분리해 정리한다.
❓ 열린 질문
- 멀티모달 scaling law는 텍스트 모델의 scaling law처럼 정교하게 정식화될 수 있을까요?
- 이미지 이해와 이미지 생성을 하나의 공통 표현으로 통합하는 것이 가능할까요, 아니면 별도 표현과 파라미터 경로가 장기적으로 더 적합할까요?
- 비디오 next-frame prediction이나 future-state prediction은 텍스트 없이도 충분한 수준의 시각적 추론 능력으로 이어질 수 있을까요?