Stanford CME296 Diffusion & Large Vision Models
Quick Summary
Stanford CME296 Diffusion & Large Vision Models Lecture 8의 핵심은 이미지 생성이 DDPM·score matching·SDE를 거쳐 flow matching과 DiT 중심으로 정리되고, 그 흐름이 비디오 생성·이미지 편집·텍스트 확산까지 확장된다는 점이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Stanford CME296 Diffusion & Large Vision Models Lecture 8의 핵심은 이미지 생성이 DDPM·score matching·SDE를 거쳐 flow matching과 DiT 중심으로 정리되고, 그 흐름이 비디오 생성·이미지 편집·텍스트 확산까지 확장된다는 점이다.
📌 핵심 요점
- 확산 모델, 스코어 기반 모델, 연속 시간 SDE는 서로 다른 설명처럼 보이지만 모두 “샘플링하기 쉬운 분포에서 복잡한 데이터 분포로 이동하는 법”을 다룬다.
- 현대 이미지 생성의 실전 기본값은 flow matching과 rectified flow 쪽으로 이동했으며, 학습된 vector field를 따라 노이즈 분포에서 데이터 분포로 이동하는 관점이 중요해졌다.
- 모델 구조는 latent space, VAE, classifier-free guidance, UNet을 거쳐 Diffusion Transformer와 multimodal joint attention 중심으로 발전했고, 최신 흐름에서는 pixel space 직접 생성과 대규모 모델 스케일링도 중요한 실험 축이 되었다.
- 이미지 생성 모델의 성능은 pre-training, continued training, subject-specific tuning, LoRA, distillation, ELO·FID·멀티모달 LLM judge 같은 평가·운영 절차와 함께 결정된다.
- 강의 후반부는 이미지 생성의 원리를 비디오 생성, 원본 보존형 이미지 편집, 확산 기반 텍스트 생성으로 확장하며, 시간 일관성·편집 action·마스킹 기반 병렬 생성 같은 새로운 제약을 다룬다.
🧩 배경과 문제 정의
- 마지막 강의는 한 학기 동안 다룬 이미지 생성 모델의 핵심 원리를 종합하고, 이를 비디오 생성·이미지 편집·텍스트 확산 생성 등 인접 주제로 확장한다.
- 핵심 문제는 입력 프롬프트에 부합하는 이미지를 만들기 위해, 직접 샘플링하기 어려운 복잡한 데이터 분포에 어떻게 접근할 것인가이다.
- DDPM, 스코어 기반 모델, 연속 시간 SDE, flow matching은 서로 다른 관점의 설명처럼 보이지만, 모두 쉬운 분포에서 실제 데이터 분포로 이동하는 생성 절차를 다룬다.
- 강의 후반부는 최신 이미지 생성 모델의 구조 변화, 비디오 생성에서의 시간 축 문제, 이미지 편집에서의 원본 보존 문제, 자기회귀 LLM의 속도 병목과 diffusion-style 텍스트 생성 가능성을 연결해 정리한다.
🕒 시간순 섹션별 상세정리
1. 마지막 강의의 구성과 이미지 생성 문제
- 이번 강의는 수업의 마지막 시간으로, 전반부에서는 지금까지 배운 내용을 종합하고 후반부에서는 인접 분야로 확장한다 [00:12]
- 핵심 목표는 입력 프롬프트가 주어졌을 때 그 의미와 잘 맞는 이미지를 생성하는 것이다 [01:03]
2. 확산 모델의 출발점: 쉬운 분포에서 데이터 분포로 이동
- 생성하려는 이미지는 복잡하고 알 수 없는 데이터 분포에 속하므로 직접 샘플링하기 어렵다 [02:16]
- 확산 접근은 가우시안처럼 다루기 쉬운 분포에서 시작해 실제 데이터 분포로 옮겨가는 전략을 사용한다 [02:43]
3. DDPM 학습 목표: likelihood 하한과 노이즈 예측 손실
- reverse process를 얻기 위해 모델 아래에서 데이터가 관측될 likelihood를 높이고자 하지만, 이를 직접 최적화하기는 어렵다 [03:45]
- ELBO를 도입하고 forward process를 포함시키면 계산 가능한 학습 목적함수로 정리할 수 있다 [04:22]
4. 스코어 기반 관점: 어디로 이동해야 하는가
- 스코어 기반 접근은 단순히 노이즈를 제거하는 것보다 데이터 분포를 향해 어느 방향으로 움직일지에 초점을 둔다 [05:43]
- score는 log probability의 gradient로, normalizing constant 없이도 데이터 분포 쪽 방향을 알려준다 [06:03]
5. 노이즈 수준별 score 추정과 diffusion과의 연결
- 실제 score는 직접 알 수 없으므로 관측 데이터에 가우시안 노이즈를 더한 뒤 해석 가능한 score를 활용한다 [07:00]
- 노이즈가 많으면 score 추정은 쉬워지지만 목표 분포에서 멀어지고, 노이즈가 적으면 목표에 가깝지만 추정이 어려워진다 [07:53]
6. 이산 시간에서 연속 시간 SDE로의 일반화
- 기존 노이징 과정은 이산 단계와 스케줄 선택에 의존하므로, 이를 더 일반적인 연속 시간 관점으로 확장한다 [09:58]
- 연속 forward process는 drift term과 diffusion term으로 이루어진 stochastic differential equation으로 표현된다 [10:28]
7. score와 flow matching으로 이어지는 생성 관점
- 역방향 과정의 목표는 forward process를 되돌리는 것이며, 이때 필요한 핵심 값이 score다 [12:20]
- noise prediction과 score estimation은 모두 노이즈에서 데이터로 이동하는 방향을 학습한다는 점에서 연결된다 [12:53]
8. vector field와 continuity equation이 만드는 이동 규칙
- flow matching의 핵심은 모든 위치와 시간에 정의되는 vector field, 즉 velocity를 학습하는 것이다 [14:03]
- microscopic formulation에서는 개별 particle의 움직임을 ODE로 나타내며, dx/dt가 vector field와 같아진다 [14:30]
9. 학습한 vector field로 샘플링하는 flow matching 절차
- 목표는 초기 분포의 샘플이 목표 데이터 분포로 이동하도록 만드는 vector field를 찾는 것이다 [15:37]
- 학습된 vector field가 있으면 P0에서 샘플을 뽑고 ODE를 풀어 P1의 샘플을 얻는다 [16:22]
10. 실전 기본값이 된 flow matching과 rectified flow
- 2026년 기준 대부분의 최신 이미지 생성 모델은 flow matching 계열을 기본 접근으로 사용한다 [18:06]
- rectified flow는 이동 경로를 더 곧게 만들어 inference 단계에서 필요한 numerical solver step 수를 줄인다 [18:32]
11. unconditioned generation 이후의 두 가지 공백
- 앞선 공식화는 프롬프트 없이 이미지를 생성하는 unconditioned generation을 가정한다 [19:17]
- 이미지 표현도 단순한 n-dimensional vector로 두었기 때문에, 적절한 representation을 어떻게 잡을지가 남아 있다 [19:35]
12. autoencoder와 VAE로 latent space를 구조화하는 이유
- autoencoder는 이미지를 더 작은 latent space로 표현하도록 학습한다 [21:12]
- bottleneck을 통과한 저차원 표현으로 입력을 복원하게 하면 압축된 latent representation을 얻을 수 있다 [22:04]
13. latent 구조화와 조건 정렬의 기본 구성
- VAE 목표에는 reconstruction loss와 함께 latent space를 prior distribution에 가깝게 구조화하는 항이 포함된다 [24:01]
- transformer encoder, Vision Transformer, CLIP-style contrastive learning은 서로 다른 modality를 같은 공간에 정렬하는 데 사용된다 [24:34]
14. flow matching 목표와 UNet의 downsampling·upsampling 구조
- 현대 이미지 생성 모델은 noise level, user prompt, noisy latent를 입력으로 받아 velocity를 예측한다 [25:42]
- UNet은 downsampling으로 receptive field를 넓혀 activation이 더 넓은 입력 영역을 반영하도록 만든다 [26:35]
15. Diffusion Transformer와 multimodal joint attention의 부상
- Diffusion Transformer는 멀리 떨어진 image patch들이 직접 상호작용하기 어려운 UNet의 한계를 다룬다 [27:58]
- adaptive layer norm과 patch embedding 조절을 통해 condition 정보를 생성 과정에 주입한다 [28:35]
16. timestep sampling과 중간 noise level의 학습 난이도
- architecture가 정해진 뒤에는 학습 중 timestep을 어떤 분포에서 sampling할지가 중요해진다 [29:47]
- 초기 접근은 timestep을 uniform하게 뽑았지만, 모든 noise level이 같은 난이도를 갖는 것은 아니다 [30:05]
17. 해상도에 따라 달라지는 perceived noise와 spatial correlation
- 이미지 해상도는 같은 noise level에서도 사람이 느끼는 noise 정도를 달라지게 한다 [31:28]
- low-resolution image는 같은 noise level에서 high-resolution image보다 더 noisy하게 보인다 [31:51]
18. pre-training, continued training, tuning으로 이어지는 학습 파이프라인
- typical model training의 첫 단계는 큰 image corpus로 진행되는 비용 높고 오래 걸리는 pre-training이다 [32:54]
- pre-training 데이터 구성은 모델이 어떤 이미지 생성을 배우는지와 생성 품질의 범위를 결정한다 [33:15]
19. 튜닝 이후 배포 효율과 distillation 필요성
- 희귀 토큰을 사용한 튜닝은 특정 토큰이 특정 대상을 생성하도록 모델 내부 표현을 다시 연결한다 [36:00]
- LoRA 같은 low-rank adaptation은 모든 가중치를 바꾸지 않고 일부만 조정해 맞춤화 비용을 줄인다 [36:21]
20. 이미지 평가 문제와 ELO의 필요성
- 생성 이미지를 제대로 평가하지 못하면 모델 개선을 어디에 집중해야 하는지 판단하기 어렵다 [37:27]
- leaderboard에서는 여러 모델의 출력을 pair-wise comparison으로 비교하고, 각 모델의 과거 평가 이력까지 반영해 상대적 품질을 산정한다 [38:01]
21. ELO 계산 방식과 FID 자동 지표
- 모델 rating은 품질을 수치로 표현하며, rating 차이는 강한 모델이 이길 expected score를 계산하는 기준이 된다 [40:01]
- 실제 score와 expected score의 차이는 결과의 의외성을 나타내고, 그 차이가 rating 업데이트 신호로 사용된다 [40:35]
22. multimodal LLM judge와 평가 루프 단축
- multimodal LLM은 텍스트와 이미지를 함께 입력받아 prompt와 image의 일치도와 품질을 평가할 수 있다 [43:02]
- LLM judge를 활용하면 인간 평가에 앞서 빠르게 반복 가능한 사전 평가 루프를 구성할 수 있다 [43:38]
23. closed-source 상위 모델과 open-weight 비교 대상
- leaderboard 상위권은 OpenAI, Google, xAI 등 대형 연구소의 closed-source 이미지 모델이 주도한다 [45:15]
- closed-source 모델은 technical report가 제한적이어서 내부 구성 요소를 직접 비교하기 어렵다 [45:37]
24. Flux 2와 Qwen Image의 구성 요소
- Flux 2는 flow matching의 파생 방식인 rectified flow를 기반으로 한다 [46:43]
- Flux 2 architecture는 diffusion transformer를 중심으로 single-stream과 double-stream 구조를 결합한다 [46:59]
25. 최신 이미지 생성 모델이 VAE와 사전학습 text encoder를 벗어남
- 기존 구조는 multimodal diffusion transformer, VAE, Qwen 기반 text embedding으로 구성된다 [48:01]
- 최근 상위 모델은 flow matching과 transformer는 유지하되, VAE와 사전학습 text encoder를 쓰지 않는 방향으로 이동하고 있다 [48:30]
26. Pixel space 생성은 큰 patch와 대규모 모델 스케일링으로 계산 부담을 낮춤
- pixel space의 유효 이미지 분포는 latent space보다 더 고립적이고 덜 매끄러워 학습이 어렵다 [49:35]
- 32x32 같은 큰 patch를 사용하면 token 수를 줄여 pixel space 생성의 계산 부담을 낮출 수 있다 [50:00]
27. VAE 제거는 fidelity 손실과 학습 용이성 사이의 trade-off를 드러냄
- latent space는 compact하고 학습하기 쉬운 공간을 제공하지만, 원본 공간이 아니기 때문에 fidelity 손실이 발생한다 [51:38]
- VAE는 원본 이미지를 복원하도록 설계되지만 lossy operation이므로 완전한 복원을 보장하지 못한다 [52:05]
28. 사전학습 text encoder 없이도 text representation을 end-to-end로 학습함
- 사전학습 encoder 대신 text token representation을 전체 모델 학습 과정에서 직접 학습할 수 있다 [53:07]
- prompt enhancement는 짧은 입력에 조명, 카메라, 장면 조건을 더해 text conditioning 부담을 낮춘다 [53:37]
29. 영상 생성은 이미지 생성에 시간 축과 temporal consistency 제약을 추가함
- 비디오 생성은 시간에 따라 이어지는 image frame sequence를 만드는 문제로 볼 수 있다 [54:49]
- 2D image는 시간 축이 더해진 3D 구조로 확장되며, 기존 이미지 생성 구성 요소를 일부 재사용할 수 있다 [55:20]
30. 영상 모델은 계산 가능성과 video-specific 평가 지표를 함께 다뤄야 함
- 비디오를 2D image sequence로 다루면 입력 차원이 시간 길이만큼 증가하므로 계산 가능성이 중요해진다 [57:18]
- video 평가에서는 pre-trained video encoder representation으로 generated video와 real video의 거리를 측정할 수 있다 [57:49]
31. 시간 축 압축과 space-time latent의 필요성
- 이미지 latent에서는 원본 높이와 latent 높이의 비율인 공간 압축률 f를 사용하며 보통 8 정도로 잡는다 [1:00:25]
- 비디오에서는 시간 축도 압축해야 하며, 커지는 차원 수를 계산 가능한 범위로 낮추는 것이 중요하다 [1:00:41]
32. 첫 프레임 anchor와 비디오 latent 구조
- 시간 차원의 latent 크기에 더해지는 1은 비디오의 첫 프레임을 별도로 다루기 위한 장치다 [1:02:24]
- 첫 프레임은 이후 생성이 자연스럽게 이어지도록 기준점 역할을 한다 [1:02:52]
33. causal VAE와 비대칭 시간 의존성
- causal VAE에서 각 프레임의 feature map은 미래가 아니라 현재와 과거 프레임에만 의존한다 [1:04:45]
- 일반 convolution은 대칭적이지만 비디오 causal VAE에서는 시간 방향의 비대칭 convolution이 필요하다 [1:05:02]
34. 과거 프레임 의존성과 긴 비디오 생성의 분할
- 과거 프레임 정보가 필요한 이유는 마지막 프레임 하나만으로 이전 객체나 인물 정보를 유지하기 어렵기 때문이다 [1:06:08]
- 과거 장면 정보가 사라지면 나중에 다시 등장해야 할 객체를 모델이 새로 만들어낼 위험이 커진다 [1:06:37]
35. latent 공간에서의 DiT 기반 비디오 생성
- 비디오 생성도 이미지 생성처럼 latent space 안에서 이루어지며 DiT 기반 architecture가 patch 입력을 처리한다 [1:08:45]
- 이미지와의 핵심 차이는 patch가 spatial patch가 아니라 시간 정보를 포함한 space-time patch라는 점이다 [1:09:07]
36. causality, training data, full self-attention의 선택
- causality와 correlation의 구분은 architecture만으로 완전히 해결되지 않고 training data의 패턴에 크게 좌우된다 [1:10:24]
- 책과 먼지 사례처럼 데이터에 물리적 변화 패턴이 있으면 모델은 그런 관계를 학습 패턴으로 흡수한다 [1:10:43]
37. 비디오 생성에서 이미지 편집 문제로 전환
- 비디오 생성 논문 목록은 포괄적이지 않지만, 이미지 생성 원리를 이해하면 관련 논문을 더 쉽게 따라갈 수 있다 [1:12:02]
- 인접 분야 첫 주제인 비디오 생성을 마친 뒤, 입력 이미지를 원하는 방식으로 바꾸는 이미지 편집으로 넘어간다 [1:12:42]
38. from-scratch 생성 방식의 원본 보존 한계
- TI2I 방식은 텍스트 조건과 이미지 조건을 넣어 출력 이미지를 만들지만 사실상 처음부터 다시 생성하는 문제로 다룬다 [1:13:11]
- 사용자가 원하는 것은 같은 이미지의 흑백 버전이지만, 전체를 재생성하면 원본 보존이 보장되지 않는다 [1:13:44]
39. 이미지 편집을 action 수행 문제로 재정의
- 접근 방향은 새 이미지 생성이 아니라 기존 이미지 위에서 특정 조작을 수행하는 편집 문제로 바뀐다 [1:14:50]
- 프롬프트와 이미지를 VLM에 넣으면 밝기 조절이나 luminosity 변경 같은 편집 action을 얻을 수 있다 [1:15:14]
40. VLM 편집 action의 병목과 학습 데이터 문제
- 핵심 병목은 VLM이 가능한 action 집합을 충분히 알아야 실제로 의미 있는 편집 action을 낼 수 있다는 점이다 [1:16:27]
- 편집 로그의 입력 이미지, 조작 순서, 최종 이미지는 모델이 학습할 수 있는 신호가 된다 [1:17:18]
41. 전후 이미지로 사용자 의도를 추론하는 방식
- 사용자 의도는 초기 이미지와 출력 이미지를 VLM에 넣어 무엇이 달라졌는지 묻는 방식으로 얻을 수 있다 [1:19:11]
- 컬러 이미지와 흑백 이미지를 함께 제시하면 “이미지를 흑백으로 만들기” 같은 의도 문장을 만들 수 있다 [1:19:49]
42. diffusion 아이디어를 LLM으로 되돌리는 흐름
- 마지막 주제는 diffusion을 LLM 분야에 적용하는 문제이며, 텍스트의 성공 아이디어가 비전으로 이동해 온 흐름을 되짚어 본다 [1:20:35]
- transformer는 번역 과제에서 출발했고, 비전 분야는 그 확장성을 활용해 diffusion transformer 같은 구조로 발전했다 [1:21:04]
43. 자기회귀 출력의 길이 의존 병목
- 자기회귀 모델은 긴 응답을 생성할수록 출력 시간이 토큰 수에 비례해 늘어난다 [1:24:20]
- 천 줄 규모의 코드를 만들 때도 토큰을 하나씩 내보내야 하므로 빠른 응답 요구와 구조적으로 충돌한다 [1:24:36]
44. 텍스트 확산 생성의 기본 아이디어
- 텍스트 생성에 diffusion 개념을 적용하면 한 토큰씩 생성하는 대신 전체 출력을 동시에 시작할 수 있다 [1:24:52]
- 노이즈에서 출발해 반복적인 denoising을 거쳐 최종 텍스트에 도달한다 [1:25:12]
45. 이미지 노이즈와 다른 텍스트 노이즈 문제
- 확산 기반 텍스트 모델은 반복 복잡도를 출력 토큰 수가 아니라 diffusion step 수에 가깝게 바꾸려 한다 [1:26:31]
- 텍스트 전체가 점점 노이즈가 적은 상태로 바뀌며 최종적으로 깨끗한 문장에 도달한다 [1:27:06]
46. 마스킹 기반 학습 목표와 BERT와의 차이
- 깨끗한 문장을 noise level에 따라 손상시키고, 예를 들어 토큰의 50%를 mask token으로 바꿀 수 있다 [1:29:42]
- 학습 목표는 남아 있는 토큰을 조건으로 가려진 토큰을 복원하는 것이다 [1:30:20]
47. 추론 단계의 반복 예측과 remasking
- 추론은 mask token으로 가득한 시퀀스에서 시작해 각 mask 위치의 토큰을 한꺼번에 예측한다 [1:31:30]
- 한 번의 예측으로 끝내지 않고 일부 토큰을 다시 마스킹해 수정 여지를 남긴다 [1:32:01]
48. 속도 이점, 코딩 활용성, 학습 비용
- diffusion 기반 텍스트 생성은 일부 연구에서 전통적 자기회귀 방식보다 최대 10배 빠른 속도를 보인다 [1:33:17]
- 코딩 에이전트에서는 빠른 생성과 fill-in-the-middle 작업에 특히 잘 맞을 수 있다 [1:33:43]
49. 텍스트 확산의 가변 길이와 블록 생성
- 실제 출력 길이는 매번 달라질 수 있지만, 생성 과정에서는 미리 정해진 출력 길이가 필요하며 end-of-sentence 이후 구간을 잘라내는 방식이 사용된다 [1:36:25]
- 예상보다 짧은 출력이 반복되면 남은 토큰 길이만큼 불필요한 계산이 발생하고, 텍스트 생성에서 variable length 문제가 뚜렷하게 드러난다 [1:36:41]
50. 이산 데이터 확장과 텍스트 이미지화 접근
- 텍스트뿐 아니라 다른 이산 항목에도 유사한 접근을 확장할 수 있으며, discrete item transcription은 연속 데이터를 격자 형태로 변환하는 방식으로 드러난다 [1:37:38]
- 텍스트를 토큰 문자열이 아니라 스크린샷 같은 이미지로 취급하고, 여기에 OCR 메커니즘을 결합하는 대안적 접근도 드러난다 [1:38:14]
51. 완벽한 이미지의 가격과 이미지 추론의 한계
- 주요 연구소의 상위 이미지 모델을 기준으로 보면, 완벽한 이미지 생성 비용은 메가픽셀당 약 10센트 수준으로 드러난다 [1:39:10]
- 실제 활용에서는 더 저렴한 증류 모델이 널리 쓰일 수 있지만, 상위 모델의 가격은 사용자가 완벽한 품질에 지불할 수 있는 상한선을 보여준다 [1:39:42]
52. 제약된 편집과 다중모달 학습 합성
- 이미지 편집을 전체 이미지의 반복 생성만으로 해결하기는 지나치게 어려울 수 있어, agent, 기존 도구, 인간 전문성을 결합한 제약된 workflow가 더 유리할 수 있다 [101:03] [1:39:47]
- 강의 자료, 영상, 오디오처럼 여러 modality를 일관되게 결합해 풍부한 학습 경험을 만드는 영역에도 큰 기회가 있다 [101:35] [1:40:45]
53. 비용·하드웨어·데이터 품질 리스크
- distillation은 모델 사용 비용을 낮출 수 있지만, transformer의 attention 연산 특성은 여전히 하드웨어 측면에서 추가 연구 여지를 남긴다 [103:26] [1:41:00]
- attention을 analog-to-numeric 방식으로 단순화하려는 연구는 모델 비용과 실행 효율을 바꿀 수 있는 가능성으로 드러난다 [103:52] [1:41:59]
54. 출처 신뢰, 워터마킹, 안전, 학습 지속 방법
- 실제 이미지와 생성 이미지의 경계가 흐려질수록, 이미지 provenance와 C2PA 같은 metadata 기반 신뢰 체계의 중요성이 커진다 [104:51] [1:45:16]
- 스크린샷은 metadata를 제거할 수 있지만, SynthID 같은 watermarking은 픽셀 패턴 안에 출처 정보를 숨겨 또 다른 신뢰 경로를 제공한다 [105:39] [1:45:31]
55. 후속 학습 자원과 수업 공동체에 대한 감사
- Stanford 231N 같은 비전 관련 과목과 매년 갱신되는 study guide가 후속 학습을 위한 자원으로 추천된다 [107:24] [1:45:39]
- 강의자는 금요일 저녁 수업에 참여하고 질문을 던진 학생들이 수업의 통찰과 역동성에 기여했다며 감사의 뜻을 전해진다 [107:29] [1:46:37]
56. 가을 후속 수업 안내와 종강 인사
- 가을에는 비전이 아니라 텍스트 분야를 중심으로, 유사한 형식의 두 번째 에디션 수업이 열릴 예정이다 [107:36] [1:47:36]
- 강의는 여름을 잘 보내라는 인사와 함께, 수업 공동체에 대한 감사와 박수 속에서 마무리된다 [108:15] [1:48:35]
🧾 결론
- 이 강의는 한 학기 동안 다룬 이미지 생성 이론을 DDPM, score matching, SDE, flow matching이라는 하나의 연결된 흐름으로 정리한다.
- 핵심 변화는 “노이즈를 어떻게 제거할 것인가”에서 “분포 사이를 어떤 경로와 velocity field로 이동할 것인가”로 초점이 확장된 점이다.
- 2026년 기준 강의 내용에서는 flow matching, rectified flow, Diffusion Transformer, multimodal attention이 최신 이미지 생성 모델을 이해하는 핵심 구성으로 제시된다.
- VAE와 latent space는 계산 효율과 학습 용이성 측면에서 강력하지만, reconstruction fidelity 손실이라는 trade-off가 있으며, 최신 대규모 모델은 VAE 없이 pixel space에서 직접 생성하는 가능성도 보여준다.
- 비디오 생성은 이미지 생성에 시간 축과 temporal consistency를 추가한 문제이며, space-time latent, 3D·causal VAE, anchor frame, full self-attention 같은 설계가 중요해진다.
- 이미지 편집은 단순히 이미지를 다시 생성하는 방식만으로는 원본 보존이 어렵기 때문에, VLM이 편집 action을 생성하고 기존 편집 도구와 결합하는 더 제약적인 접근이 제안된다.
- 텍스트 확산은 자기회귀 생성의 길이 의존 병목을 줄이려는 시도로 소개되며, mask token 기반 복원과 remasking을 통해 전체 출력을 반복적으로 정제하는 방향을 취한다.
📈 투자·시사 포인트
- 이미지 생성 모델의 경쟁력은 단순 모델 구조만이 아니라 데이터 구성, 학습 파이프라인, distillation, 평가 루프, 배포 비용까지 포함한 전체 시스템 역량에 의해 좌우된다.
- flow matching과 rectified flow가 inference step 수를 줄이는 방향으로 설명된 만큼, 고품질 생성 모델의 상용화에서는 품질뿐 아니라 latency와 serving cost가 핵심 변수가 된다.
- Diffusion Transformer와 multimodal joint attention의 부상은 이미지·텍스트·비디오를 함께 다루는 대형 멀티모달 모델 경쟁이 계속 강화될 가능성을 시사한다.
- VAE를 제거하고 pixel space에서 직접 생성하려는 흐름은 fidelity 손실을 줄일 수 있는 가능성을 보여주지만, 강의에서는 장기적으로 VAE가 불필요해질지는 더 지켜봐야 한다고 구분한다.
- 비디오 생성은 이미지 생성보다 계산량과 평가 난도가 높고 temporal consistency가 추가되므로, space-time compression, video VAE, human-in-the-loop 평가가 중요한 병목으로 남는다.
- 이미지 편집 영역에서는 완전한 재생성보다 action 기반·도구 결합형 접근이 원본 보존과 제어 가능성 측면에서 더 실용적인 방향으로 제시된다.
- 생성 이미지가 대량으로 공개 공간에 퍼지면 학습 데이터 품질과 model collapse 문제가 커질 수 있어, C2PA·SynthID 같은 출처 추적과 워터마킹이 장기적인 데이터 인프라 이슈로 부각된다.
⚠️ 불확실하거나 확인이 필요한 부분
- “2026년 기준 대부분의 모델이 flow matching을 기본적으로 사용한다”는 설명은 강의 맥락상 최신 경향으로 제시되지만, 실제 주요 상용·공개 모델별 학습 목표와 구현은 technical report 또는 공개 코드로 별도 확인이 필요하다.
- closed-source 상위 이미지 모델들, 예를 들어 OpenAI·Google·xAI 계열 모델의 내부 구조는 강의에서도 기술 보고서 부재로 확인이 어렵다고 설명되므로, diffusion transformer·flow matching·VAE 사용 여부를 단정할 수 없다.
- VAE를 제거하고 pixel space에서 직접 생성하는 최신 흐름은 “몇 주 전 나온” 매우 최근 사례로 언급되므로, 장기적으로 VAE가 불필요해질지 여부는 추가 벤치마크와 후속 연구 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- DDPM, denoising score matching, SDE, flow matching이 “쉬운 분포에서 데이터 분포로 이동한다”는 하나의 관점으로 어떻게 연결되는지 수식 흐름을 다시 정리한다.
- flow matching과 rectified flow가 inference step 수를 줄이는 이유를 ODE sampling, vector field, 경로 직선화 관점에서 복습한다.
- UNet, Diffusion Transformer, multimodal joint attention의 차이를 “전역 문맥 처리”와 “조건 주입 방식” 중심으로 비교 표로 정리한다.
- Flux 2, Qwen Image, Hydream 01 Image 등 강의에 언급된 open-weight 모델의 technical report를 확인해 실제로 어떤 loss, architecture, latent representation을 쓰는지 검증한다.
❓ 열린 질문
- flow matching이 현재 이미지 생성의 실전 기본값에 가깝다면, diffusion 계열의 다른 학습 목표들은 앞으로 어떤 niche나 장점을 유지할 수 있을까?
- VAE를 제거한 pixel-space 생성이 대규모 모델 스케일링으로 경쟁력을 얻는다면, latent space 설계의 중요성은 줄어들까, 아니면 특정 비용·해상도·도메인에서 계속 핵심으로 남을까?
- closed-source 모델이 기술 세부 정보를 공개하지 않는 상황에서, 연구자와 실무자는 어떤 방식으로 모델 구조와 학습 방법을 합리적으로 추정하거나 비교할 수 있을까?