Inference, Diffusion, World Models, and More

🖼️ 인포그래픽

Inference, Diffusion, World Models, and More 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Inference, Diffusion, World Models 논의의 공통 결론은 AI 성능 경쟁이 모델 크기만이 아니라 추론 속도, 데이터 효율, 세계 모델링, 실행 시점 계획 능력으로 확장되고 있다는 점이다.

📌 핵심 요점

YC Paper Club은 AI 연구자와 창업자를 한 공간에 모아 논문, 시스템 구현, 제품화 가능성을 함께 논의하려는 커뮤니티로 소개됐다.
Inference는 단순한 비용 절감 문제가 아니라 모델이 더 오래, 더 빠르게 “생각”할 수 있게 하는 capability 문제로 다뤄졌고, SSD는 draft와 verification의 순차 의존성을 줄여 speculative decoding의 지연시간 병목을 완화하려는 접근이다.
Diffusion 기반 로보틱스 논의에서는 DMPC가 multi-step action proposal과 multi-step dynamics model을 함께 학습해 누적 오류를 줄이고, 실행 시점의 새로운 보상이나 동역학 변화에 적응할 수 있는 구조로 제시됐다.
World model 발표에서는 관측과 행동으로 미래 상태를 예측하는 모델 기반 접근이 model-free policy와 대비됐고, latent 표현 붕괴를 막기 위한 SIG regularizer와 불확실성 감지 능력이 중요한 장점으로 설명됐다.
일반화와 데이터 제약 사전학습 논의에서는 PAC-Bayes, 압축성, aggressive regularization, ensembling, distillation이 데이터가 제한되고 compute가 상대적으로 풍부한 시대의 핵심 학습 recipe 후보로 제시됐다.

🧩 배경과 문제 정의

YC Paper Club은 AI 창업자와 연구자를 한자리에 모아, 연구와 제품화 사이의 간극을 좁히려는 커뮤니티로 출발한다.
베이 Area의 AI 인재가 샌프란시스코와 팔로알토 일대에 분산되어 있어, YC의 기존 네트워크만으로는 지역적·연구적 연결을 충분히 활용하기 어렵다.
첫 발표의 핵심 문제의식은 inference가 단순한 비용 절감이나 편의성의 문제가 아니라, 모델이 더 오래, 더 빠르게 “생각”할 수 있게 하는 능력의 한계와 맞닿아 있다는 점이다.
speculative decoding과 SSD는 큰 모델의 출력 품질을 유지하면서 지연시간을 줄이려는 시도이며, 생성과 검증 사이의 비대칭성이 핵심 출발점이다.
이후 논의는 robotics와 world model, diffusion-based control, deep learning generalization, data-constrained pretraining으로 이어지며, 공통적으로 “제한된 compute·data·latency 안에서 더 나은 일반화와 의사결정을 만드는 방법”을 다룬다.

🕒 시간순 섹션별 상세정리

1. YC Paper Club의 출발과 참여자 구성

첫 YC Paper Club에는 1,000명 이상이 지원했지만 약 100명만 선발됐고, 연구자와 창업자를 한데 모은 고밀도 커뮤니티를 지향했다 [00:21]
참석자에는 논문 인용 수가 수백·수천·수만 회에 이르는 연구자들과, 수백만 달러에서 수천만 달러 이상을 조달한 창업자들이 함께 포함됐다 [00:54]

2. inference가 비용 문제가 아니라 능력 문제가 되는 이유

첫 발표 주제는 “Speculative Speculative Decoding”이며, Stanford 대학원생 Tanishk가 inference의 알고리즘적·시스템적 미묘함을 다룬다 [03:51]
training은 정교한 weight를 만드는 과정처럼 보이지만, 대규모 inference에는 단순 행렬곱을 넘어서는 알고리즘과 시스템 문제가 촘촘히 얽혀 있다 [04:13]

3. 빠른 inference 예시와 SSD의 문제 설정

더 빠른 inference의 목표는 대규모 데이터센터가 단일 난제에 장시간 compute를 투입할 수 있게 하는 것이며, inference 최적화는 고난도 추론 능력과 직접 연결된다 [06:23]
데모에서는 일반 autoregressive decoding, 기존 speculative decoding, 새 알고리즘을 적용한 hand-rolled inference engine을 나란히 비교하며, 오른쪽 SSD 방식이 오픈소스 엔진보다 빠른 결과를 보인다 [06:49]

4. vanilla speculative decoding의 기본 구조

vanilla speculative decoding은 작은 draft 모델과 큰 target 모델을 함께 사용해, 최종적으로 큰 모델이 낼 것과 같은 token을 더 빠르게 sample하는 방식이다 [07:56]
draft 모델은 여러 token을 autoregressive하게 먼저 생성하고, 이 token들은 큰 모델이 다음에 낼 가능성이 있는 후보로 사용된다 [08:18]

5. token accept·reject와 bonus token의 중요성

큰 모델이 충분히 높은 확률을 부여한 token은 accept되고, 특정 지점에서 plausibility가 낮아지면 그 token 이후는 reject된다 [09:24]
예시에서는 draft가 세 token을 만들었지만, target 모델은 첫 token만 그럴듯하다고 보고 두 번째 token 이후를 reject한다 [09:57]

6. speculative decoding의 한계와 SSD의 출발점

speculation은 LLM에만 국한된 기법이 아니라 CPU에서도 쓰이는 일반적인 컴퓨터과학 아이디어로, 미래를 미리 계산해 맞으면 지연시간을 줄이고 틀리면 일부 계산을 버린다 [10:45]
speculative decoding은 flops를 더 써서 latency를 낮추는 교환 구조지만, draft token 수를 계속 늘린다고 속도가 무한히 개선되지는 않는다 [11:13]

7. SSD는 draft와 verification을 동시에 돌려 순차 지연을 줄인다

speculative decoding의 순차 지연을 줄이려면 draft와 verification이 같은 하드웨어에서 번갈아 실행되는 구조를 벗어나야 하며, 두 작업이 동시에 진행되도록 colocating을 피해야 한다 [12:01]
verifier는 큰 모델이어서 blue token들을 검증하는 forward pass에 시간이 걸리고, draft 쪽은 그 사이 가장 가능성 높은 검증 결과를 예상해 다음 라운드 token 생성을 시작한다 [12:37]

8. 검증 결과 예측은 accepted token 수와 bonus token 후보를 맞히는 문제다

SSD의 핵심 설계 공간은 verification outcome을 미리 예측하는 것이며, 큰 verifier의 판단을 앞서 맞혀야 하므로 본질적으로 어려운 문제다 [13:25]
verification outcome은 대체로 accepted token 수와 bonus token으로 구성되고, bonus token은 수만~수십만 개 vocabulary에서 나올 수 있어 탐색 공간이 매우 크다 [13:53]

9. cache miss 처리와 throughput 결과가 SSD의 실질 성능을 좌우한다

verification 시간이 길수록 draft는 더 많은 token을 미리 준비할 수 있고, round당 기대 token 수가 늘어나면서 추가 speedup이 생긴다 [14:57]
cache miss가 발생할 때 ordinary speculation으로 즉시 fallback하는 방식이 항상 최적은 아니며, batch size가 커질수록 일부 sequence의 verification outcome 예측 실패도 늘어난다 [15:17]

10. robotics 쪽 논점은 video model과 MPC 기반 world modeling으로 전환된다

diffusion policy의 horizon-step robotic control 아이디어에서, test time에 video model로 미래 장면을 굴려 보고 도달 상태를 예측하려는 발상이 계속된다 [17:49]
world modeling for robotics 프로젝트는 video와 world model 위에 general-purpose policy를 만들려는 방향이며, 초기 작업은 toy problem에서 유사한 아이디어의 초기 버전을 다룬다 [18:33]

11. DMPC는 diffusion model로 multi-step action과 dynamics를 함께 모델링한다

실용적인 MPC에는 compounding error를 줄일 만큼 정확한 dynamics model과, 좋은 action sequence를 고를 만큼 강한 planning algorithm이 필요하다 [20:17]
DMPC는 diffusion model로 multi-step action proposal과 multi-step dynamics model을 함께 학습해 누적 오차를 줄이고, 단순한 sampling-based planner만으로도 기존 접근보다 나은 성능을 낼 수 있다 [20:40]

12. diffusion-based agent 공간은 policy, diffuser, decision diffuser, DMPC로 나뉜다

diffusion model은 image·video generation에서 성과를 냈고, 최근 robotics에서는 diffusion-based agent의 설계 공간을 확장하는 방식으로 활용된다 [22:38]
diffusion policy는 observation을 조건으로 future action을 생성하며, diffuser는 toy space에서 observation과 state를 joint modeling하는 방향에 가깝다 [23:03]

13. 확산 기반 제어 방식의 절충과 데이터 병목

diffusion policy는 복잡한 일상 제어에서 여전히 널리 쓰이지만, 전문가 시연에 의존하기 때문에 behavior cloning 범위를 넘어서기 어렵다 [24:03]
diffuser는 상태와 행동을 함께 모델링해 암묵적 세계 모델링과 모델 기반 계획을 동시에 포함하며, 이를 더 큰 규모로 확장해 탐색할 수 있는 기반이 된다 [24:18]

14. DMPC의 오프라인 학습 구조와 단순한 추론 절차

DMPC 알고리즘은 오프라인 데이터셋과 몇 가지 하이퍼파라미터를 바탕으로 여러 모델을 학습하는 단순한 구조에서 출발한다 [24:57]
정책 모델은 현재 관측을 입력으로 행동을 예측하고, 동역학 모델은 행동을 받아 관측을 미래 상태로 전개한다 [25:12]

15. 다중 스텝 동역학과 확산 모델이 계획을 단순화하는 이유

multi-step dynamics model은 긴 시간 지평으로 상태를 전개할 때 누적 오류를 줄여, 장기 계획에서 동역학 예측을 더 안정적으로 만든다 [26:01]
확산 모델은 멀티모달 데이터를 강하게 모델링할 수 있어, 복잡한 행동 후보의 분포를 더 효과적으로 다룰 수 있다 [26:17]

16. 고정 보상 성능과 실행 시점 보상 변경 대응

고정 보상 단일 과제 설정에서 DMPC는 기존 state-of-the-art 접근과 경쟁력 있는 성능을 보이며, 기본 제어 성능의 하한을 확보한다 [27:02]
더 중요한 특징은 실행 시점에 새로운 보상으로 적응하는 능력이며, 훈련 때와 다른 목적도 보상 함수 변경만으로 유도할 수 있다 [27:32]

17. 동역학 변화 적응과 DMPC 구성요소의 기여

DMPC는 novel dynamics에도 적응하며, joint modeling 방식은 환경 동역학이 바뀌는 상황에서 상대적으로 더 어려움을 겪는다 [28:09]
행동 제안 모델과 동역학 모델을 분리한 구조 덕분에, 행동 후보 생성은 유지하면서 바뀐 환경에 맞춰 동역학 모델만 새 데이터로 조정할 수 있다 [28:19]

18. 세계 모델의 정의, 역사, 모델 프리·모델 기반 정책의 갈림길

세계 모델은 현재 상태와 행동을 입력으로 시스템이 시간에 따라 어떻게 변할지 예측하는 모델이며, 로봇 명령과 움직임 이후의 결과 상태를 추정한다 [31:14]
세계 모델은 imagined outcome 생성, 모델 기반 제어, surprise quantification을 가능하게 하며, Sutton의 1990년 논의처럼 오래된 강화학습 아이디어와도 연결된다 [31:46]

19. 월드 모델 학습의 붕괴 문제와 기존 해법의 한계

작은 모델도 장난감 환경과 더 복잡한 환경을 학습할 수 있지만, 고차원 관측을 압축 표현으로 바꾸는 일과 행동에 따른 상태 변화를 함께 배우는 구조가 핵심 난점이다 [36:02]
표현과 동역학을 함께 학습하면 모든 상태를 동일하게 취급하는 trivial collapse가 지역 최솟값이 될 수 있고, 이 경우 모델은 세계의 차이를 보존하지 못한다 [36:23]

20. latent 공간에서 붕괴를 막는 SIG regularizer 접근

붕괴 방지 방식은 latent 공간의 건강성을 강제하는 명시적 휴리스틱, 기존 오토인코더·확산 모델·비디오 모델을 활용하는 foundation 기반 방식, 학습 시점의 특권 데이터를 쓰는 방식으로 나뉜다 [37:46]
JEPA 계열 구조에서는 관측 이미지를 encoder로 latent vector로 바꾸고, action-conditioned predictor가 특정 행동 이후의 다음 latent embedding을 예측한다 [38:23]

21. open-loop 예측과 model predictive control 성능

open-loop prediction에서는 실제 Push-T 궤적과 상상된 궤적이 유사하게 나타나며, 이는 월드 모델이 다음 행동의 결과를 잘 예측한다는 신호가 된다 [40:08]
예측 품질 자체보다 실제 과제 완료 정책에 어떤 도움이 되는지가 중요하며, 월드 모델은 model predictive control로 연결될 때 제어 성능을 평가받는다 [40:32]

22. 모델 오류 감지와 월드 모델의 불확실성 장점

동일한 Push-T 궤적에서 색상을 바꾸거나 물체를 다른 위치로 순간이동시키면, perturbation이 들어간 순간 model error가 spike로 나타난다 [41:59]
월드 모델 기반 agent는 자신의 예측이 얼마나 나쁜지 수치화할 수 있고, 이는 불확실성 추정이 기본적으로 제공되지 않는 model-free 접근과 구분되는 강점이다 [42:20]

23. 딥러닝 일반화 문제와 PAC-Bayes 관점

다음 주제는 월드 모델보다 더 추상적인 딥러닝 일반화 문제로 넘어가며, Andrew Gordon Wilson의 “Deep Learning is Not So Mysterious or Different”가 중심이 된다 [43:24]
현재 머신러닝에서는 모델 스케일을 키우면 일반화가 좋아진다는 경험적 사실이 있지만, 왜 그런 현상이 생기는지에 대한 기계적 이해는 부족하다 [44:07]

24. 과매개변수화가 일반화를 개선하는 압축성 해석

고전적인 bias-variance trade-off 관점에서는 parameter 수를 늘리면 overfit이 예상되지만, 실제 scaling law에서는 모델이 커질수록 일반화가 좋아진다 [45:31]
PAC-Bayes 관점에서 parameter 수 증가는 데이터를 더 잘 맞추게 만들어 empirical risk, 즉 training loss를 낮춘다 [46:09]

25. 소프트 inductive bias와 일반화의 균형

모델은 무작위 데이터도 맞출 수 있지만 구조화된 데이터에서는 잘 일반화해야 하며, 이 둘을 동시에 만족시키는 inductive bias가 핵심 미스터리다 [48:00]
정규화된 polynomial model에서는 무작위 데이터에 충분한 파라미터로 맞출 수 있고, 구조화된 데이터에서는 regularization이 낮은 차수 항을 선호해 일반화 가능성을 높인다 [48:21]

26. sample efficiency 격차와 inductive bias의 중요성

적절한 inductive bias를 찾으면 그 bias 자체를 최적화 대상으로 삼을 수 있고, no free lunch theorem 관점에서는 학습 효율 개선이 inductive bias를 통해서만 가능하다 [49:45]
AI와 인간 사이에는 sample efficiency 격차가 매우 크며, 이 문제를 해결하면 capability 측면에서도 큰 폭의 이득이 가능하다 [50:04]

27. pretraining 성과와 데이터 제약의 등장

최근 pretraining은 GPT-3의 in-context learning, Anthropic RLHF의 alignment, OpenAI o1과 DeepSeek R1의 reasoning처럼 새로운 capability를 계속 만들어냈다 [51:35]
더 크고 새로운 pretraining run에서도 모델 성능은 계속 좋아지고, 비싼 pretraining 비용 때문에 연구 초점은 compute efficiency 개선에 맞춰져 왔다 [52:08]

28. scaling law로 무제한 compute 성능 한계 추정

현대 scaling law toolkit은 data-constrained pretraining을 분석하는 도구이며, IID validation loss를 단조롭게 낮추는 scaling recipe를 탐색하는 데 쓰인다 [54:03]
clean power law를 맞출 수 있다면, 그 asymptote를 통해 해당 recipe가 infinite compute에서 도달 가능한 best possible loss를 추정할 수 있다 [54:28]

29. 표준 recipe의 overfitting과 aggressive regularization

표준 recipe는 같은 데이터를 여러 epoch 반복하고 모델을 키운 뒤 grid search와 early stopping을 적용하지만, overparameterized model이 커질수록 더 빨리 overfit되어 어느 지점 이후 loss가 증가한다… [56:08]
첫 번째 baseline은 weight decay를 크게 높인 aggressive regularization이며, 각 parameter count마다 learning rate·weight decay·epoch count를 최적으로 조정한다 [56:1… [56:40]

30. ensembling과 joint scaling의 데이터 효율성

ensembling은 modern language model pretraining에서도 강한 data efficiency를 보이며, 3억 parameter 모델 여러 개를 묶어 total parameter를 늘리는 방식으로 실험된다 [57:48]
다섯 번째 ensemble point는 3억 parameter 모델 5개로 구성된 총 15억 parameter 사례이며, ensemble에서도 member 수에 대한 지수 1의 clean power law와 asymptote가 나타난다 [58:01]

31. 데이터 스케일링 법칙과 5배 데이터 효율성

무한히 큰 모델과 많은 앙상블을 허용하면 손실 개선이 크지만, 초기 실험은 2억 토큰의 toy data-constrained setup이므로 일반적인 대규모 사전학습 조건과는 차이가 크다 [1:00:01]
같은 실험을 네 가지 pre-training token count에서 반복하고 최대 17억 토큰까지 확장해, 각 token count에서 compute가 무한할 때 recipe별 최선 성능을 비교한다 [1:00:24]

32. 증류로 추론 비용을 줄이고 작은 모델에 효율성을 압축

distillation은 학습 compute를 더 쓰는 대신 inference compute를 줄여, 큰 앙상블을 직접 실행하지 않고도 데이터 효율성 이득을 활용하게 한다 [1:02:29]
약 24억 total parameter 규모의 8개 모델 앙상블을 단일 dense 3억 parameter 모델로 증류해도 loss improvement의 약 83%가 유지된다 [1:02:52]

33. 다운스트림 벤치마크와 continued pre-training에서도 유지되는 효율성

실험의 직접 목표는 IID validation loss였지만, paper 마지막에 확인한 held-out downstream benchmarks에서도 표준 recipe는 overfit하고, model scaling과 ensembling은 개선을 만든… [1:04:39]
continued pre-training 조건에서는 3B 모델을 대상으로, 전체 730억 math-related token corpus 중 제한된 40억 token만 접근 가능한 상황을 가정한다 [1:04:54]

34. 데이터 제약 시대의 학습 스택 재검토와 클럽 마무리

데이터가 제한되고 compute가 충분한 알고리즘 체제에서는 선택한 recipe가 성능을 크게 좌우하므로, 학습 스택의 모든 요소를 다시 검토할 필요가 커진다 [1:05:16]
regularization, ensembling, distillation 같은 오래된 머신러닝·딥러닝 기법이 데이터 효율성 개선의 핵심 수단으로 다시 중요해지며, asymptote는 더 낮은 compute asymptote를 가진 알고리즘을 찾기 위한 평가… [1:05:39]

🧾 결론

이 영상의 중심축은 “더 큰 모델” 하나가 아니라, inference, diffusion control, world model, data-efficient pretraining이라는 여러 병목을 동시에 다루는 연구 흐름입니다.
SSD 논의는 추론 최적화가 단순 서빙 비용 절감이 아니라, test-time compute를 얼마나 효과적으로 사용할 수 있는지와 직결된다는 점을 강조한다.
로보틱스 쪽에서는 diffusion model과 MPC가 결합되며, 사전 훈련된 고정 정책보다 실행 시점에 목표와 환경 변화에 대응하는 planning 구조가 더 중요해질 수 있음을 보여준다.
World model 논의는 미래를 예측하고 오류를 수치화할 수 있는 모델 기반 접근의 장점을 보여주지만, 표현 학습 붕괴와 고차원 관측 처리 문제는 여전히 핵심 난제로 남아 있다.
데이터 제약 사전학습 논의는 앞으로의 성능 개선이 단순히 더 많은 인터넷 텍스트와 compute를 투입하는 방식만으로는 충분하지 않을 수 있으며, 오래된 regularization, ensembling, distillation 기법이 다시 중요해질 수 있음을 시사한다.

📈 투자·시사 포인트

Inference 최적화는 AI 인프라의 핵심 투자 영역으로 보인다. 특히 speculative decoding, verifier-draft 병렬화, cache miss 처리, batch throughput 개선처럼 latency와 throughput을 동시에 다루는 기술이 중요해질 수 있다.
로보틱스와 embodied AI에서는 diffusion policy 자체보다 world model, dynamics model, MPC, runtime planning을 결합한 구조가 더 큰 차별화 요소가 될 가능성이 있다.
데이터 제약 시대에는 “더 많은 데이터 확보”뿐 아니라 같은 데이터에서 더 많은 성능을 끌어내는 학습 recipe가 중요해집니다. regularization, ensembling, distillation, self-distillation은 재평가할 만한 기술 축입니다.
추론 비용을 줄이면서도 성능을 유지하는 distillation은 대규모 ensemble이나 고비용 학습 결과를 작은 dense model에 압축하는 방식으로 제품화 가능성을 높일 수 있다.
검증 필요: 발표에서 언급된 SSD의 4개 H100 기준 sampling 성능, joint scaling의 약 5배 데이터 효율성, continued pre-training의 약 17배 효율성은 발표 내 실험 결과로 제시된 내용이며, 다른 모델 크기·데이터셋·상용 환경에서도 유지되는지는 별도 재현과 벤치마크가 필요하다.

⚠️ 불확실하거나 확인이 필요한 부분

SSD 데모에서 새 방식이 기존 autoregressive decoding·speculative decoding보다 빨랐다는 설명은 나오지만, 모델 크기, 배치 크기, baseline 엔진, 측정 환경이 section-detail만으로는 충분히 확정되지 않습니다.
“4개 H100에서 300 tokens/s”, “verification outcome 예측 80~90%”, “약 50배 빠름”, “약 5배·17배 데이터 효율성” 같은 수치는 등장하지만, 정확한 실험 조건과 비교 기준은 원논문이나 발표 슬라이드로 재확인이 필요하다.
DMPC, SIG regularizer, PAC-Bayes 일반화, data-constrained pretraining 관련 논문들의 정확한 제목·저자·링크는 section-detail에 일부만 제시되어 있어, 최종 노트에는 원문 확인 후 표기하는 것이 안전한다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

SSD 파트에서 draft model, target model, verifier, accepted token, rejected token, bonus token, cache miss를 용어별로 짧게 정리한다.
speculative decoding과 SSD의 차이를 “순차 의존성 제거”와 “verification outcome 예측” 중심으로 비교 표로 정리한다.
Robotics 파트는 diffusion policy, diffuser, decision diffuser, DMPC를 policy 기반·world model 기반·planning 기반 관점으로 나눠 정리한다.
World model 파트에서 model-free와 model-based 접근의 장단점을 Push-T 예시와 함께 구분한다.

❓ 열린 질문

SSD가 실제 프로덕션 LLM 서빙 환경에서도 latency와 throughput을 동시에 개선하려면 어떤 batch size, hardware 배치, cache 전략이 가장 중요할까요?
verification outcome을 80~90% 정도 맞히는 것이 충분하다는 주장은 모델 크기나 vocabulary 크기가 달라져도 유지될까요?
Robotics에서 DMPC처럼 world model과 planner를 결합하는 방식이 diffusion policy 같은 behavior cloning 기반 접근보다 언제 확실히 유리할까요?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. YC Paper Club의 출발과 참여자 구성

2. inference가 비용 문제가 아니라 능력 문제가 되는 이유

3. 빠른 inference 예시와 SSD의 문제 설정

4. vanilla speculative decoding의 기본 구조

5. token accept·reject와 bonus token의 중요성

6. speculative decoding의 한계와 SSD의 출발점

7. SSD는 draft와 verification을 동시에 돌려 순차 지연을 줄인다

8. 검증 결과 예측은 accepted token 수와 bonus token 후보를 맞히는 문제다

9. cache miss 처리와 throughput 결과가 SSD의 실질 성능을 좌우한다

10. robotics 쪽 논점은 video model과 MPC 기반 world modeling으로 전환된다

11. DMPC는 diffusion model로 multi-step action과 dynamics를 함께 모델링한다

12. diffusion-based agent 공간은 policy, diffuser, decision diffuser, DMPC로 나뉜다

13. 확산 기반 제어 방식의 절충과 데이터 병목

14. DMPC의 오프라인 학습 구조와 단순한 추론 절차

15. 다중 스텝 동역학과 확산 모델이 계획을 단순화하는 이유

16. 고정 보상 성능과 실행 시점 보상 변경 대응

17. 동역학 변화 적응과 DMPC 구성요소의 기여

18. 세계 모델의 정의, 역사, 모델 프리·모델 기반 정책의 갈림길

19. 월드 모델 학습의 붕괴 문제와 기존 해법의 한계

20. latent 공간에서 붕괴를 막는 SIG regularizer 접근

21. open-loop 예측과 model predictive control 성능

22. 모델 오류 감지와 월드 모델의 불확실성 장점

23. 딥러닝 일반화 문제와 PAC-Bayes 관점

24. 과매개변수화가 일반화를 개선하는 압축성 해석

25. 소프트 inductive bias와 일반화의 균형

26. sample efficiency 격차와 inductive bias의 중요성

27. pretraining 성과와 데이터 제약의 등장

28. scaling law로 무제한 compute 성능 한계 추정

29. 표준 recipe의 overfitting과 aggressive regularization

30. ensembling과 joint scaling의 데이터 효율성

31. 데이터 스케일링 법칙과 5배 데이터 효율성

32. 증류로 추론 비용을 줄이고 작은 모델에 효율성을 압축

33. 다운스트림 벤치마크와 continued pre-training에서도 유지되는 효율성

34. 데이터 제약 시대의 학습 스택 재검토와 클럽 마무리

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

커버드콜, 그냥 지수에 뒀으면 ''18억'' 더 벌었습니다

경제가 좋다는데 "나만 죽어라 살기 힘든 이유

[월가아재] AI 버블은 언제 터질까? 끝을 알리는 3가지 신호

30명 개발사 대표가 알려주는 Hermes 실전 운영법 (똑똑한개발자 서장원 대표님)

The hidden pattern behind successful products

외계 문명은 이미 모두 사라졌다?!