Stanford CME296 Diffusion & Large Vision Models

🖼️ 인포그래픽

Stanford CME296 Diffusion & Large Vision Models 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Stanford CME296 Diffusion & Large Vision Models Lecture 8의 핵심은 이미지 생성이 DDPM·score matching·SDE를 거쳐 flow matching과 DiT 중심으로 정리되고, 그 흐름이 비디오 생성·이미지 편집·텍스트 확산까지 확장된다는 점이다.

📌 핵심 요점

확산 모델, 스코어 기반 모델, 연속 시간 SDE는 서로 다른 설명처럼 보이지만 모두 “샘플링하기 쉬운 분포에서 복잡한 데이터 분포로 이동하는 법”을 다룬다.
현대 이미지 생성의 실전 기본값은 flow matching과 rectified flow 쪽으로 이동했으며, 학습된 vector field를 따라 노이즈 분포에서 데이터 분포로 이동하는 관점이 중요해졌다.
모델 구조는 latent space, VAE, classifier-free guidance, UNet을 거쳐 Diffusion Transformer와 multimodal joint attention 중심으로 발전했고, 최신 흐름에서는 pixel space 직접 생성과 대규모 모델 스케일링도 중요한 실험 축이 되었다.
이미지 생성 모델의 성능은 pre-training, continued training, subject-specific tuning, LoRA, distillation, ELO·FID·멀티모달 LLM judge 같은 평가·운영 절차와 함께 결정된다.
강의 후반부는 이미지 생성의 원리를 비디오 생성, 원본 보존형 이미지 편집, 확산 기반 텍스트 생성으로 확장하며, 시간 일관성·편집 action·마스킹 기반 병렬 생성 같은 새로운 제약을 다룬다.

🧩 배경과 문제 정의

마지막 강의는 한 학기 동안 다룬 이미지 생성 모델의 핵심 원리를 종합하고, 이를 비디오 생성·이미지 편집·텍스트 확산 생성 등 인접 주제로 확장한다.
핵심 문제는 입력 프롬프트에 부합하는 이미지를 만들기 위해, 직접 샘플링하기 어려운 복잡한 데이터 분포에 어떻게 접근할 것인가이다.
DDPM, 스코어 기반 모델, 연속 시간 SDE, flow matching은 서로 다른 관점의 설명처럼 보이지만, 모두 쉬운 분포에서 실제 데이터 분포로 이동하는 생성 절차를 다룬다.
강의 후반부는 최신 이미지 생성 모델의 구조 변화, 비디오 생성에서의 시간 축 문제, 이미지 편집에서의 원본 보존 문제, 자기회귀 LLM의 속도 병목과 diffusion-style 텍스트 생성 가능성을 연결해 정리한다.

🕒 시간순 섹션별 상세정리

1. 마지막 강의의 구성과 이미지 생성 문제

이번 강의는 수업의 마지막 시간으로, 전반부에서는 지금까지 배운 내용을 종합하고 후반부에서는 인접 분야로 확장한다 [00:12]
핵심 목표는 입력 프롬프트가 주어졌을 때 그 의미와 잘 맞는 이미지를 생성하는 것이다 [01:03]

2. 확산 모델의 출발점: 쉬운 분포에서 데이터 분포로 이동

생성하려는 이미지는 복잡하고 알 수 없는 데이터 분포에 속하므로 직접 샘플링하기 어렵다 [02:16]
확산 접근은 가우시안처럼 다루기 쉬운 분포에서 시작해 실제 데이터 분포로 옮겨가는 전략을 사용한다 [02:43]

3. DDPM 학습 목표: likelihood 하한과 노이즈 예측 손실

reverse process를 얻기 위해 모델 아래에서 데이터가 관측될 likelihood를 높이고자 하지만, 이를 직접 최적화하기는 어렵다 [03:45]
ELBO를 도입하고 forward process를 포함시키면 계산 가능한 학습 목적함수로 정리할 수 있다 [04:22]

4. 스코어 기반 관점: 어디로 이동해야 하는가

스코어 기반 접근은 단순히 노이즈를 제거하는 것보다 데이터 분포를 향해 어느 방향으로 움직일지에 초점을 둔다 [05:43]
score는 log probability의 gradient로, normalizing constant 없이도 데이터 분포 쪽 방향을 알려준다 [06:03]

5. 노이즈 수준별 score 추정과 diffusion과의 연결

실제 score는 직접 알 수 없으므로 관측 데이터에 가우시안 노이즈를 더한 뒤 해석 가능한 score를 활용한다 [07:00]
노이즈가 많으면 score 추정은 쉬워지지만 목표 분포에서 멀어지고, 노이즈가 적으면 목표에 가깝지만 추정이 어려워진다 [07:53]

6. 이산 시간에서 연속 시간 SDE로의 일반화

기존 노이징 과정은 이산 단계와 스케줄 선택에 의존하므로, 이를 더 일반적인 연속 시간 관점으로 확장한다 [09:58]
연속 forward process는 drift term과 diffusion term으로 이루어진 stochastic differential equation으로 표현된다 [10:28]

7. score와 flow matching으로 이어지는 생성 관점

역방향 과정의 목표는 forward process를 되돌리는 것이며, 이때 필요한 핵심 값이 score다 [12:20]
noise prediction과 score estimation은 모두 노이즈에서 데이터로 이동하는 방향을 학습한다는 점에서 연결된다 [12:53]

8. vector field와 continuity equation이 만드는 이동 규칙

flow matching의 핵심은 모든 위치와 시간에 정의되는 vector field, 즉 velocity를 학습하는 것이다 [14:03]
microscopic formulation에서는 개별 particle의 움직임을 ODE로 나타내며, dx/dt가 vector field와 같아진다 [14:30]

9. 학습한 vector field로 샘플링하는 flow matching 절차

목표는 초기 분포의 샘플이 목표 데이터 분포로 이동하도록 만드는 vector field를 찾는 것이다 [15:37]
학습된 vector field가 있으면 P0에서 샘플을 뽑고 ODE를 풀어 P1의 샘플을 얻는다 [16:22]

10. 실전 기본값이 된 flow matching과 rectified flow

2026년 기준 대부분의 최신 이미지 생성 모델은 flow matching 계열을 기본 접근으로 사용한다 [18:06]
rectified flow는 이동 경로를 더 곧게 만들어 inference 단계에서 필요한 numerical solver step 수를 줄인다 [18:32]

11. unconditioned generation 이후의 두 가지 공백

앞선 공식화는 프롬프트 없이 이미지를 생성하는 unconditioned generation을 가정한다 [19:17]
이미지 표현도 단순한 n-dimensional vector로 두었기 때문에, 적절한 representation을 어떻게 잡을지가 남아 있다 [19:35]

12. autoencoder와 VAE로 latent space를 구조화하는 이유

autoencoder는 이미지를 더 작은 latent space로 표현하도록 학습한다 [21:12]
bottleneck을 통과한 저차원 표현으로 입력을 복원하게 하면 압축된 latent representation을 얻을 수 있다 [22:04]

13. latent 구조화와 조건 정렬의 기본 구성

VAE 목표에는 reconstruction loss와 함께 latent space를 prior distribution에 가깝게 구조화하는 항이 포함된다 [24:01]
transformer encoder, Vision Transformer, CLIP-style contrastive learning은 서로 다른 modality를 같은 공간에 정렬하는 데 사용된다 [24:34]

14. flow matching 목표와 UNet의 downsampling·upsampling 구조

현대 이미지 생성 모델은 noise level, user prompt, noisy latent를 입력으로 받아 velocity를 예측한다 [25:42]
UNet은 downsampling으로 receptive field를 넓혀 activation이 더 넓은 입력 영역을 반영하도록 만든다 [26:35]

15. Diffusion Transformer와 multimodal joint attention의 부상

Diffusion Transformer는 멀리 떨어진 image patch들이 직접 상호작용하기 어려운 UNet의 한계를 다룬다 [27:58]
adaptive layer norm과 patch embedding 조절을 통해 condition 정보를 생성 과정에 주입한다 [28:35]

16. timestep sampling과 중간 noise level의 학습 난이도

architecture가 정해진 뒤에는 학습 중 timestep을 어떤 분포에서 sampling할지가 중요해진다 [29:47]
초기 접근은 timestep을 uniform하게 뽑았지만, 모든 noise level이 같은 난이도를 갖는 것은 아니다 [30:05]

17. 해상도에 따라 달라지는 perceived noise와 spatial correlation

이미지 해상도는 같은 noise level에서도 사람이 느끼는 noise 정도를 달라지게 한다 [31:28]
low-resolution image는 같은 noise level에서 high-resolution image보다 더 noisy하게 보인다 [31:51]

18. pre-training, continued training, tuning으로 이어지는 학습 파이프라인

typical model training의 첫 단계는 큰 image corpus로 진행되는 비용 높고 오래 걸리는 pre-training이다 [32:54]
pre-training 데이터 구성은 모델이 어떤 이미지 생성을 배우는지와 생성 품질의 범위를 결정한다 [33:15]

19. 튜닝 이후 배포 효율과 distillation 필요성

희귀 토큰을 사용한 튜닝은 특정 토큰이 특정 대상을 생성하도록 모델 내부 표현을 다시 연결한다 [36:00]
LoRA 같은 low-rank adaptation은 모든 가중치를 바꾸지 않고 일부만 조정해 맞춤화 비용을 줄인다 [36:21]

20. 이미지 평가 문제와 ELO의 필요성

생성 이미지를 제대로 평가하지 못하면 모델 개선을 어디에 집중해야 하는지 판단하기 어렵다 [37:27]
leaderboard에서는 여러 모델의 출력을 pair-wise comparison으로 비교하고, 각 모델의 과거 평가 이력까지 반영해 상대적 품질을 산정한다 [38:01]

21. ELO 계산 방식과 FID 자동 지표

모델 rating은 품질을 수치로 표현하며, rating 차이는 강한 모델이 이길 expected score를 계산하는 기준이 된다 [40:01]
실제 score와 expected score의 차이는 결과의 의외성을 나타내고, 그 차이가 rating 업데이트 신호로 사용된다 [40:35]

22. multimodal LLM judge와 평가 루프 단축

multimodal LLM은 텍스트와 이미지를 함께 입력받아 prompt와 image의 일치도와 품질을 평가할 수 있다 [43:02]
LLM judge를 활용하면 인간 평가에 앞서 빠르게 반복 가능한 사전 평가 루프를 구성할 수 있다 [43:38]

23. closed-source 상위 모델과 open-weight 비교 대상

leaderboard 상위권은 OpenAI, Google, xAI 등 대형 연구소의 closed-source 이미지 모델이 주도한다 [45:15]
closed-source 모델은 technical report가 제한적이어서 내부 구성 요소를 직접 비교하기 어렵다 [45:37]

24. Flux 2와 Qwen Image의 구성 요소

Flux 2는 flow matching의 파생 방식인 rectified flow를 기반으로 한다 [46:43]
Flux 2 architecture는 diffusion transformer를 중심으로 single-stream과 double-stream 구조를 결합한다 [46:59]

25. 최신 이미지 생성 모델이 VAE와 사전학습 text encoder를 벗어남

기존 구조는 multimodal diffusion transformer, VAE, Qwen 기반 text embedding으로 구성된다 [48:01]
최근 상위 모델은 flow matching과 transformer는 유지하되, VAE와 사전학습 text encoder를 쓰지 않는 방향으로 이동하고 있다 [48:30]

26. Pixel space 생성은 큰 patch와 대규모 모델 스케일링으로 계산 부담을 낮춤

pixel space의 유효 이미지 분포는 latent space보다 더 고립적이고 덜 매끄러워 학습이 어렵다 [49:35]
32x32 같은 큰 patch를 사용하면 token 수를 줄여 pixel space 생성의 계산 부담을 낮출 수 있다 [50:00]

27. VAE 제거는 fidelity 손실과 학습 용이성 사이의 trade-off를 드러냄

latent space는 compact하고 학습하기 쉬운 공간을 제공하지만, 원본 공간이 아니기 때문에 fidelity 손실이 발생한다 [51:38]
VAE는 원본 이미지를 복원하도록 설계되지만 lossy operation이므로 완전한 복원을 보장하지 못한다 [52:05]

28. 사전학습 text encoder 없이도 text representation을 end-to-end로 학습함

사전학습 encoder 대신 text token representation을 전체 모델 학습 과정에서 직접 학습할 수 있다 [53:07]
prompt enhancement는 짧은 입력에 조명, 카메라, 장면 조건을 더해 text conditioning 부담을 낮춘다 [53:37]

29. 영상 생성은 이미지 생성에 시간 축과 temporal consistency 제약을 추가함

비디오 생성은 시간에 따라 이어지는 image frame sequence를 만드는 문제로 볼 수 있다 [54:49]
2D image는 시간 축이 더해진 3D 구조로 확장되며, 기존 이미지 생성 구성 요소를 일부 재사용할 수 있다 [55:20]

30. 영상 모델은 계산 가능성과 video-specific 평가 지표를 함께 다뤄야 함

비디오를 2D image sequence로 다루면 입력 차원이 시간 길이만큼 증가하므로 계산 가능성이 중요해진다 [57:18]
video 평가에서는 pre-trained video encoder representation으로 generated video와 real video의 거리를 측정할 수 있다 [57:49]

31. 시간 축 압축과 space-time latent의 필요성

이미지 latent에서는 원본 높이와 latent 높이의 비율인 공간 압축률 f를 사용하며 보통 8 정도로 잡는다 [1:00:25]
비디오에서는 시간 축도 압축해야 하며, 커지는 차원 수를 계산 가능한 범위로 낮추는 것이 중요하다 [1:00:41]

32. 첫 프레임 anchor와 비디오 latent 구조

시간 차원의 latent 크기에 더해지는 1은 비디오의 첫 프레임을 별도로 다루기 위한 장치다 [1:02:24]
첫 프레임은 이후 생성이 자연스럽게 이어지도록 기준점 역할을 한다 [1:02:52]

33. causal VAE와 비대칭 시간 의존성

causal VAE에서 각 프레임의 feature map은 미래가 아니라 현재와 과거 프레임에만 의존한다 [1:04:45]
일반 convolution은 대칭적이지만 비디오 causal VAE에서는 시간 방향의 비대칭 convolution이 필요하다 [1:05:02]

34. 과거 프레임 의존성과 긴 비디오 생성의 분할

과거 프레임 정보가 필요한 이유는 마지막 프레임 하나만으로 이전 객체나 인물 정보를 유지하기 어렵기 때문이다 [1:06:08]
과거 장면 정보가 사라지면 나중에 다시 등장해야 할 객체를 모델이 새로 만들어낼 위험이 커진다 [1:06:37]

35. latent 공간에서의 DiT 기반 비디오 생성

비디오 생성도 이미지 생성처럼 latent space 안에서 이루어지며 DiT 기반 architecture가 patch 입력을 처리한다 [1:08:45]
이미지와의 핵심 차이는 patch가 spatial patch가 아니라 시간 정보를 포함한 space-time patch라는 점이다 [1:09:07]

36. causality, training data, full self-attention의 선택

causality와 correlation의 구분은 architecture만으로 완전히 해결되지 않고 training data의 패턴에 크게 좌우된다 [1:10:24]
책과 먼지 사례처럼 데이터에 물리적 변화 패턴이 있으면 모델은 그런 관계를 학습 패턴으로 흡수한다 [1:10:43]

37. 비디오 생성에서 이미지 편집 문제로 전환

비디오 생성 논문 목록은 포괄적이지 않지만, 이미지 생성 원리를 이해하면 관련 논문을 더 쉽게 따라갈 수 있다 [1:12:02]
인접 분야 첫 주제인 비디오 생성을 마친 뒤, 입력 이미지를 원하는 방식으로 바꾸는 이미지 편집으로 넘어간다 [1:12:42]

38. from-scratch 생성 방식의 원본 보존 한계

TI2I 방식은 텍스트 조건과 이미지 조건을 넣어 출력 이미지를 만들지만 사실상 처음부터 다시 생성하는 문제로 다룬다 [1:13:11]
사용자가 원하는 것은 같은 이미지의 흑백 버전이지만, 전체를 재생성하면 원본 보존이 보장되지 않는다 [1:13:44]

39. 이미지 편집을 action 수행 문제로 재정의

접근 방향은 새 이미지 생성이 아니라 기존 이미지 위에서 특정 조작을 수행하는 편집 문제로 바뀐다 [1:14:50]
프롬프트와 이미지를 VLM에 넣으면 밝기 조절이나 luminosity 변경 같은 편집 action을 얻을 수 있다 [1:15:14]

40. VLM 편집 action의 병목과 학습 데이터 문제

핵심 병목은 VLM이 가능한 action 집합을 충분히 알아야 실제로 의미 있는 편집 action을 낼 수 있다는 점이다 [1:16:27]
편집 로그의 입력 이미지, 조작 순서, 최종 이미지는 모델이 학습할 수 있는 신호가 된다 [1:17:18]

41. 전후 이미지로 사용자 의도를 추론하는 방식

사용자 의도는 초기 이미지와 출력 이미지를 VLM에 넣어 무엇이 달라졌는지 묻는 방식으로 얻을 수 있다 [1:19:11]
컬러 이미지와 흑백 이미지를 함께 제시하면 “이미지를 흑백으로 만들기” 같은 의도 문장을 만들 수 있다 [1:19:49]

42. diffusion 아이디어를 LLM으로 되돌리는 흐름

마지막 주제는 diffusion을 LLM 분야에 적용하는 문제이며, 텍스트의 성공 아이디어가 비전으로 이동해 온 흐름을 되짚어 본다 [1:20:35]
transformer는 번역 과제에서 출발했고, 비전 분야는 그 확장성을 활용해 diffusion transformer 같은 구조로 발전했다 [1:21:04]

43. 자기회귀 출력의 길이 의존 병목

자기회귀 모델은 긴 응답을 생성할수록 출력 시간이 토큰 수에 비례해 늘어난다 [1:24:20]
천 줄 규모의 코드를 만들 때도 토큰을 하나씩 내보내야 하므로 빠른 응답 요구와 구조적으로 충돌한다 [1:24:36]

44. 텍스트 확산 생성의 기본 아이디어

텍스트 생성에 diffusion 개념을 적용하면 한 토큰씩 생성하는 대신 전체 출력을 동시에 시작할 수 있다 [1:24:52]
노이즈에서 출발해 반복적인 denoising을 거쳐 최종 텍스트에 도달한다 [1:25:12]

45. 이미지 노이즈와 다른 텍스트 노이즈 문제

확산 기반 텍스트 모델은 반복 복잡도를 출력 토큰 수가 아니라 diffusion step 수에 가깝게 바꾸려 한다 [1:26:31]
텍스트 전체가 점점 노이즈가 적은 상태로 바뀌며 최종적으로 깨끗한 문장에 도달한다 [1:27:06]

46. 마스킹 기반 학습 목표와 BERT와의 차이

깨끗한 문장을 noise level에 따라 손상시키고, 예를 들어 토큰의 50%를 mask token으로 바꿀 수 있다 [1:29:42]
학습 목표는 남아 있는 토큰을 조건으로 가려진 토큰을 복원하는 것이다 [1:30:20]

47. 추론 단계의 반복 예측과 remasking

추론은 mask token으로 가득한 시퀀스에서 시작해 각 mask 위치의 토큰을 한꺼번에 예측한다 [1:31:30]
한 번의 예측으로 끝내지 않고 일부 토큰을 다시 마스킹해 수정 여지를 남긴다 [1:32:01]

48. 속도 이점, 코딩 활용성, 학습 비용

diffusion 기반 텍스트 생성은 일부 연구에서 전통적 자기회귀 방식보다 최대 10배 빠른 속도를 보인다 [1:33:17]
코딩 에이전트에서는 빠른 생성과 fill-in-the-middle 작업에 특히 잘 맞을 수 있다 [1:33:43]

49. 텍스트 확산의 가변 길이와 블록 생성

실제 출력 길이는 매번 달라질 수 있지만, 생성 과정에서는 미리 정해진 출력 길이가 필요하며 end-of-sentence 이후 구간을 잘라내는 방식이 사용된다 [1:36:25]
예상보다 짧은 출력이 반복되면 남은 토큰 길이만큼 불필요한 계산이 발생하고, 텍스트 생성에서 variable length 문제가 뚜렷하게 드러난다 [1:36:41]

50. 이산 데이터 확장과 텍스트 이미지화 접근

텍스트뿐 아니라 다른 이산 항목에도 유사한 접근을 확장할 수 있으며, discrete item transcription은 연속 데이터를 격자 형태로 변환하는 방식으로 드러난다 [1:37:38]
텍스트를 토큰 문자열이 아니라 스크린샷 같은 이미지로 취급하고, 여기에 OCR 메커니즘을 결합하는 대안적 접근도 드러난다 [1:38:14]

51. 완벽한 이미지의 가격과 이미지 추론의 한계

주요 연구소의 상위 이미지 모델을 기준으로 보면, 완벽한 이미지 생성 비용은 메가픽셀당 약 10센트 수준으로 드러난다 [1:39:10]
실제 활용에서는 더 저렴한 증류 모델이 널리 쓰일 수 있지만, 상위 모델의 가격은 사용자가 완벽한 품질에 지불할 수 있는 상한선을 보여준다 [1:39:42]

52. 제약된 편집과 다중모달 학습 합성

이미지 편집을 전체 이미지의 반복 생성만으로 해결하기는 지나치게 어려울 수 있어, agent, 기존 도구, 인간 전문성을 결합한 제약된 workflow가 더 유리할 수 있다 [101:03] [1:39:47]
강의 자료, 영상, 오디오처럼 여러 modality를 일관되게 결합해 풍부한 학습 경험을 만드는 영역에도 큰 기회가 있다 [101:35] [1:40:45]

53. 비용·하드웨어·데이터 품질 리스크

distillation은 모델 사용 비용을 낮출 수 있지만, transformer의 attention 연산 특성은 여전히 하드웨어 측면에서 추가 연구 여지를 남긴다 [103:26] [1:41:00]
attention을 analog-to-numeric 방식으로 단순화하려는 연구는 모델 비용과 실행 효율을 바꿀 수 있는 가능성으로 드러난다 [103:52] [1:41:59]

54. 출처 신뢰, 워터마킹, 안전, 학습 지속 방법

실제 이미지와 생성 이미지의 경계가 흐려질수록, 이미지 provenance와 C2PA 같은 metadata 기반 신뢰 체계의 중요성이 커진다 [104:51] [1:45:16]
스크린샷은 metadata를 제거할 수 있지만, SynthID 같은 watermarking은 픽셀 패턴 안에 출처 정보를 숨겨 또 다른 신뢰 경로를 제공한다 [105:39] [1:45:31]

55. 후속 학습 자원과 수업 공동체에 대한 감사

Stanford 231N 같은 비전 관련 과목과 매년 갱신되는 study guide가 후속 학습을 위한 자원으로 추천된다 [107:24] [1:45:39]
강의자는 금요일 저녁 수업에 참여하고 질문을 던진 학생들이 수업의 통찰과 역동성에 기여했다며 감사의 뜻을 전해진다 [107:29] [1:46:37]

56. 가을 후속 수업 안내와 종강 인사

가을에는 비전이 아니라 텍스트 분야를 중심으로, 유사한 형식의 두 번째 에디션 수업이 열릴 예정이다 [107:36] [1:47:36]
강의는 여름을 잘 보내라는 인사와 함께, 수업 공동체에 대한 감사와 박수 속에서 마무리된다 [108:15] [1:48:35]

🧾 결론

이 강의는 한 학기 동안 다룬 이미지 생성 이론을 DDPM, score matching, SDE, flow matching이라는 하나의 연결된 흐름으로 정리한다.
핵심 변화는 “노이즈를 어떻게 제거할 것인가”에서 “분포 사이를 어떤 경로와 velocity field로 이동할 것인가”로 초점이 확장된 점이다.
2026년 기준 강의 내용에서는 flow matching, rectified flow, Diffusion Transformer, multimodal attention이 최신 이미지 생성 모델을 이해하는 핵심 구성으로 제시된다.
VAE와 latent space는 계산 효율과 학습 용이성 측면에서 강력하지만, reconstruction fidelity 손실이라는 trade-off가 있으며, 최신 대규모 모델은 VAE 없이 pixel space에서 직접 생성하는 가능성도 보여준다.
비디오 생성은 이미지 생성에 시간 축과 temporal consistency를 추가한 문제이며, space-time latent, 3D·causal VAE, anchor frame, full self-attention 같은 설계가 중요해진다.
이미지 편집은 단순히 이미지를 다시 생성하는 방식만으로는 원본 보존이 어렵기 때문에, VLM이 편집 action을 생성하고 기존 편집 도구와 결합하는 더 제약적인 접근이 제안된다.
텍스트 확산은 자기회귀 생성의 길이 의존 병목을 줄이려는 시도로 소개되며, mask token 기반 복원과 remasking을 통해 전체 출력을 반복적으로 정제하는 방향을 취한다.

📈 투자·시사 포인트

이미지 생성 모델의 경쟁력은 단순 모델 구조만이 아니라 데이터 구성, 학습 파이프라인, distillation, 평가 루프, 배포 비용까지 포함한 전체 시스템 역량에 의해 좌우된다.
flow matching과 rectified flow가 inference step 수를 줄이는 방향으로 설명된 만큼, 고품질 생성 모델의 상용화에서는 품질뿐 아니라 latency와 serving cost가 핵심 변수가 된다.
Diffusion Transformer와 multimodal joint attention의 부상은 이미지·텍스트·비디오를 함께 다루는 대형 멀티모달 모델 경쟁이 계속 강화될 가능성을 시사한다.
VAE를 제거하고 pixel space에서 직접 생성하려는 흐름은 fidelity 손실을 줄일 수 있는 가능성을 보여주지만, 강의에서는 장기적으로 VAE가 불필요해질지는 더 지켜봐야 한다고 구분한다.
비디오 생성은 이미지 생성보다 계산량과 평가 난도가 높고 temporal consistency가 추가되므로, space-time compression, video VAE, human-in-the-loop 평가가 중요한 병목으로 남는다.
이미지 편집 영역에서는 완전한 재생성보다 action 기반·도구 결합형 접근이 원본 보존과 제어 가능성 측면에서 더 실용적인 방향으로 제시된다.
생성 이미지가 대량으로 공개 공간에 퍼지면 학습 데이터 품질과 model collapse 문제가 커질 수 있어, C2PA·SynthID 같은 출처 추적과 워터마킹이 장기적인 데이터 인프라 이슈로 부각된다.

⚠️ 불확실하거나 확인이 필요한 부분

“2026년 기준 대부분의 모델이 flow matching을 기본적으로 사용한다”는 설명은 강의 맥락상 최신 경향으로 제시되지만, 실제 주요 상용·공개 모델별 학습 목표와 구현은 technical report 또는 공개 코드로 별도 확인이 필요하다.
closed-source 상위 이미지 모델들, 예를 들어 OpenAI·Google·xAI 계열 모델의 내부 구조는 강의에서도 기술 보고서 부재로 확인이 어렵다고 설명되므로, diffusion transformer·flow matching·VAE 사용 여부를 단정할 수 없다.
VAE를 제거하고 pixel space에서 직접 생성하는 최신 흐름은 “몇 주 전 나온” 매우 최근 사례로 언급되므로, 장기적으로 VAE가 불필요해질지 여부는 추가 벤치마크와 후속 연구 확인이 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

DDPM, denoising score matching, SDE, flow matching이 “쉬운 분포에서 데이터 분포로 이동한다”는 하나의 관점으로 어떻게 연결되는지 수식 흐름을 다시 정리한다.
flow matching과 rectified flow가 inference step 수를 줄이는 이유를 ODE sampling, vector field, 경로 직선화 관점에서 복습한다.
UNet, Diffusion Transformer, multimodal joint attention의 차이를 “전역 문맥 처리”와 “조건 주입 방식” 중심으로 비교 표로 정리한다.
Flux 2, Qwen Image, Hydream 01 Image 등 강의에 언급된 open-weight 모델의 technical report를 확인해 실제로 어떤 loss, architecture, latent representation을 쓰는지 검증한다.

❓ 열린 질문

flow matching이 현재 이미지 생성의 실전 기본값에 가깝다면, diffusion 계열의 다른 학습 목표들은 앞으로 어떤 niche나 장점을 유지할 수 있을까?
VAE를 제거한 pixel-space 생성이 대규모 모델 스케일링으로 경쟁력을 얻는다면, latent space 설계의 중요성은 줄어들까, 아니면 특정 비용·해상도·도메인에서 계속 핵심으로 남을까?
closed-source 모델이 기술 세부 정보를 공개하지 않는 상황에서, 연구자와 실무자는 어떤 방식으로 모델 구조와 학습 방법을 합리적으로 추정하거나 비교할 수 있을까?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. 마지막 강의의 구성과 이미지 생성 문제

2. 확산 모델의 출발점: 쉬운 분포에서 데이터 분포로 이동

3. DDPM 학습 목표: likelihood 하한과 노이즈 예측 손실

4. 스코어 기반 관점: 어디로 이동해야 하는가

5. 노이즈 수준별 score 추정과 diffusion과의 연결

6. 이산 시간에서 연속 시간 SDE로의 일반화

7. score와 flow matching으로 이어지는 생성 관점

8. vector field와 continuity equation이 만드는 이동 규칙

9. 학습한 vector field로 샘플링하는 flow matching 절차

10. 실전 기본값이 된 flow matching과 rectified flow

11. unconditioned generation 이후의 두 가지 공백

12. autoencoder와 VAE로 latent space를 구조화하는 이유

13. latent 구조화와 조건 정렬의 기본 구성

14. flow matching 목표와 UNet의 downsampling·upsampling 구조

15. Diffusion Transformer와 multimodal joint attention의 부상

16. timestep sampling과 중간 noise level의 학습 난이도

17. 해상도에 따라 달라지는 perceived noise와 spatial correlation

18. pre-training, continued training, tuning으로 이어지는 학습 파이프라인

19. 튜닝 이후 배포 효율과 distillation 필요성

20. 이미지 평가 문제와 ELO의 필요성

21. ELO 계산 방식과 FID 자동 지표

22. multimodal LLM judge와 평가 루프 단축

23. closed-source 상위 모델과 open-weight 비교 대상

24. Flux 2와 Qwen Image의 구성 요소

25. 최신 이미지 생성 모델이 VAE와 사전학습 text encoder를 벗어남

26. Pixel space 생성은 큰 patch와 대규모 모델 스케일링으로 계산 부담을 낮춤

27. VAE 제거는 fidelity 손실과 학습 용이성 사이의 trade-off를 드러냄

28. 사전학습 text encoder 없이도 text representation을 end-to-end로 학습함

29. 영상 생성은 이미지 생성에 시간 축과 temporal consistency 제약을 추가함

30. 영상 모델은 계산 가능성과 video-specific 평가 지표를 함께 다뤄야 함

31. 시간 축 압축과 space-time latent의 필요성

32. 첫 프레임 anchor와 비디오 latent 구조

33. causal VAE와 비대칭 시간 의존성

34. 과거 프레임 의존성과 긴 비디오 생성의 분할

35. latent 공간에서의 DiT 기반 비디오 생성

36. causality, training data, full self-attention의 선택

37. 비디오 생성에서 이미지 편집 문제로 전환

38. from-scratch 생성 방식의 원본 보존 한계

39. 이미지 편집을 action 수행 문제로 재정의

40. VLM 편집 action의 병목과 학습 데이터 문제

41. 전후 이미지로 사용자 의도를 추론하는 방식

42. diffusion 아이디어를 LLM으로 되돌리는 흐름

43. 자기회귀 출력의 길이 의존 병목

44. 텍스트 확산 생성의 기본 아이디어

45. 이미지 노이즈와 다른 텍스트 노이즈 문제

46. 마스킹 기반 학습 목표와 BERT와의 차이

47. 추론 단계의 반복 예측과 remasking

48. 속도 이점, 코딩 활용성, 학습 비용

49. 텍스트 확산의 가변 길이와 블록 생성

50. 이산 데이터 확장과 텍스트 이미지화 접근

51. 완벽한 이미지의 가격과 이미지 추론의 한계

52. 제약된 편집과 다중모달 학습 합성

53. 비용·하드웨어·데이터 품질 리스크

54. 출처 신뢰, 워터마킹, 안전, 학습 지속 방법

55. 후속 학습 자원과 수업 공동체에 대한 감사

56. 가을 후속 수업 안내와 종강 인사

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

How to use Codex for everyday work

How AI is Transforming Scientific Discovery While Keeping Humans at the Center

AI 뉴스 - 클로드 Fable 5 금지, Gemini 실시간 번역, GLM-5.2, Kimi-K2.7-Code, MiniMax M3, SpaceX AI1 위성 등

하이닉스, 변동성에 속으면 안 됩니다" D램·HBM 공급부족이 만든 메모리 슈퍼사이클 #SK하이닉스 #hbm

Stanford CME296 Diffusion & Large Vision Models

삼성전자 -10%, 건강한 조정이어야만 한다