Stanford CME296 Diffusion & Large Vision Models

🖼️ 인포그래픽

Stanford CME296 Diffusion & Large Vision Models 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Stanford CME296 Lecture 7 - Evaluation은 텍스트-이미지 생성 모델 평가가 “보기 좋은가”와 “프롬프트를 따르는가”에서 출발해, 인간 선호·분포 기반 지표·지각 유사도·멀티모달 judge까지 확장되는 문제임을 보여준다.

📌 핵심 요점

이미지 생성 모델 평가는 미학적 품질과 프롬프트 준수성이 핵심 축이며, 여기에 안전성·다양성·암기 방지·편향 같은 리스크 평가가 추가된다.
인간 평가는 5점 척도, 이진 pass rate, 쌍대 비교로 설계할 수 있으며, 쌍대 비교는 절대 점수보다 노이즈가 낮지만 단순 win rate는 상대 모델의 강도를 반영하지 못한다.
ELO rating은 기대 승률과 실제 결과의 차이로 모델 점수를 갱신해, 리더보드에서 모든 모델을 매번 전수 비교해야 하는 부담을 줄이는 방식으로 소개된다.
자동 평가지표는 목적에 따라 나뉜다. FID는 실제 이미지와 생성 이미지의 분포 차이를 보고, CLIP score와 P-score는 텍스트-이미지 정렬 및 인간 만족도를 다루며, MSE·PSNR·SSIM·LPIPS는 기준 이미지가 있는 재구성·편집 평가에 쓰인다.
최신 평가는 단순 숫자 지표를 넘어 멀티모달 모델을 judge로 활용하는 방향으로 이동한다. TIFA, VQA score, VIE Score, GenEval, DPGBench는 프롬프트 조건을 더 세밀하게 분해하거나 근거를 포함한 평가를 시도한다.

🧩 배경과 문제 정의

텍스트-이미지 생성 모델의 출력 품질을 개선하려면, 먼저 생성 이미지가 얼마나 좋은지 평가할 기준이 필요하다.
이미지 평가는 단순히 보기 좋은지를 판단하는 문제가 아니라, 입력 프롬프트를 얼마나 정확히 따르는지도 함께 봐야 하는 문제다.
핵심 평가 축은 미학적 품질과 프롬프트 준수성이지만, 실제 모델 평가에서는 안전성·다양성·암기 방지·편향·일반화 같은 리스크도 함께 고려해야 한다.

🕒 시간순 섹션별 상세정리

1. 평가 주제로 들어가기 전 학습 과정의 핵심을 복기한다

텍스트-이미지 생성 모델의 출력 품질을 평가해야 모델 개선 방향을 판단할 수 있으며, 평가 자체가 모델 개발의 출발점이 된다 [00:12]
이전 강의의 학습 손실에서는 타임스텝을 균등하게 다루는 방식이 공정하지 않으며, 중간 단계가 더 어렵기 때문에 logit-normal 분포가 중간 타임스텝에 더 큰 비중을 둔다 [01:01]

2. 사전학습과 후속학습은 생성 능력과 이미지 품질을 나눠 개선한다

사전학습의 목표는 모델이 이미지를 생성하는 기본 능력을 배우게 하는 것이다 [02:42]
커리큘럼 러닝은 쉬운 작업을 먼저 익힌 뒤 더 어려운 작업으로 넘어가게 만드는 학습 전략이다 [02:57]
DIT 기반 모델에서는 다양한 해상도를 처리하는 문제가 결국 더 긴 입력을 다루는 문제로 바뀌며, 구조적으로 해상도 확장이 가능해진다 [03:08]

3. 개인화와 증류 이후 평가 문제가 본격화된다

DreamBooth는 희귀 토큰을 활용해 특정 객체나 인물을 학습하고, 추론 시점에는 튜닝된 모델이 그 학습 내용을 활용해 개인화된 이미지를 만든다 [04:21]
증류 기법들은 추론에 필요한 단계 수를 줄이는 데 초점을 두며, progressive distillation과 distribution matching distillation 같은 방식이 여기에 속한다 [04:55]

4. 같은 프롬프트에서도 실패 원인은 미학과 프롬프트 불일치로 갈린다

“책을 읽는 테디베어”라는 프롬프트에서 첫 번째 생성 이미지는 보기 불편하고 미학적 품질이 낮아 좋은 출력으로 보기 어렵다 [05:49]
두 번째 이미지는 시각적으로는 괜찮아 보일 수 있지만, 테디베어가 책을 읽는 장면이 아니기 때문에 프롬프트 준수성에서 실패한다 [06:51]

5. 이미지 평가는 미학적 품질과 프롬프트 준수성을 중심으로 나뉜다

생성 이미지를 단독으로 봤을 때 좋은 그림인지, 물리적으로 그럴듯한지, 지각 품질이 충분한지가 미학적 품질의 주요 판단 기준이다 [08:11]
책이 테이블 위에 있는지처럼 물체 배치가 물리적으로 자연스러운지도 미학적 품질 평가에 포함된다 [08:45]
전체 이미지가 현실적이고 보기 좋은지 판단하는 것이 첫 번째 평가 축이다 [09:00]

6. 안전성·다양성·일반화·편향까지 평가 범위가 확장된다

미학과 프롬프트 준수성만으로는 평가 기준이 완결되지 않으며, 위험하게 해석될 수 있는 장면을 피하는 안전성도 별도의 기준이 된다 [09:44]
같은 프롬프트에서 항상 같은 결과만 생성하면 다양성이 부족한 모델이 된다 [10:06]
학습 입력을 그대로 외워 재현하면 일반화 능력이 약하다는 문제가 생긴다 [10:21]

7. 5점 척도 평균 평점의 장점과 노이즈 문제

1점은 매우 나쁘고 5점은 매우 좋은 이미지라는 기준을 두고, 각 이미지에 점수를 매기는 방식이 가능하다 [12:00]
데이터셋 전체 성능은 각 이미지 평점의 합을 평가 수로 나눈 평균 평점으로 계산된다 [12:15]
5점 척도는 “좋은 이미지”와 “매우 좋은 이미지”를 구분할 수 있어 평가가 세밀하다 [12:41]
선택지가 많아질수록 같은 이미지에도 5점·4점·3점처럼 사람마다 다른 해석이 생겨 노이즈가 커진다 [12:56]

8. 이진 pass rate는 쉬워지지만 절대 기준이 남는다

1~5점 척도의 어려움을 줄이기 위해 이미지를 좋음과 나쁨으로 나누는 이진 평가로 바꿀 수 있다 [13:48]
이진 평가에서는 사람은 이미지가 기준을 통과했는지만 판단하면 된다 [14:03]
이진 설정에서는 평점 합을 평가 수로 나눈 값이 pass rate가 되며, 전체 이미지 중 기준을 통과한 비율이 모델 성능 지표가 된다 [14:16]

9. 쌍대 비교는 절대 평가보다 낮은 노이즈를 만든다

쌍대 비교에서는 같은 입력 프롬프트로 두 이미지를 생성한 뒤, 두 이미지 중 어느 쪽이 더 나은지만 고른다 [15:16]
절대 기준에서는 이미지가 기준 이상인지에 대해 사람마다 기대치가 갈릴 수 있다 [16:03]
두 이미지를 직접 비교하면 어느 쪽이 더 나은지 판단하기 쉬워져 평가 노이즈가 줄어든다 [16:18]

10. 단순 승률은 상대 모델의 강도를 놓친다

쌍대 비교의 가장 단순한 지표는 특정 모델이 이긴 횟수를 전체 비교 횟수로 나눈 win rate다 [16:41]
모델 A의 이미지가 상대보다 선택된 비율을 성능으로 삼을 수 있다 [16:56]
단순 win rate는 비교 상대가 누구인지 반영하지 못한다 [17:14]
하나의 기준 모델과만 비교할 때는 쓸 수 있지만, 여러 모델이 섞인 환경에서는 성능 해석이 불안정해진다 [17:29]

11. 리더보드는 모든 모델을 매번 비교하기 어렵다

텍스트-이미지 생성 모델 리더보드에서는 모델들이 순위로 나열되지만, 새 모델이 들어오고 기존 모델이 빠지면서 비교 대상 집합이 계속 바뀐다 [18:36]
새 모델의 win rate를 공정하게 만들려면 해당 모델을 목록의 모든 모델과 비교해야 한다 [18:53]
공정성을 유지하려면 목록의 모든 기존 모델도 서로 다시 비교해야 하므로 평가 비용이 커진다 [19:08]

12. 기대 승률과 실제 결과의 차이로 rating을 갱신한다

각 모델에 rating R을 두면, 상대 모델의 기존 강도 차이를 점수 계산에 반영할 수 있다 [20:51]
신규 모델 A가 1000점에서 시작하고 상대 모델이 600점이라면, rating 차이에 따라 A의 기대 승률이 높게 계산된다 [21:06]
기대 점수는 1 / (1 + 10^((상대 rating - 내 rating) / 400)) 형태로 계산된다 [21:38]
1000점 모델이 600점 모델을 상대하면 기대 승률은 약 90%가 된다 [21:53]

13. ELO 점수는 상대 강도를 반영해 리더보드 평가 비용을 줄인다

아주 나쁜 모델을 상대로 이겨도 점수 상승은 크지 않다 [24:00]
약한 상대에게 지거나 비기면 현재 모델의 성능이 낮다는 신호가 되어 평점에 큰 하방 기여를 만든다 [24:15]
최종 평점은 기존 rating에 K × delta를 더해 갱신된다 [24:26]
이 절차가 리더보드에서 모델 성능을 추적하는 기본 레시피가 된다 [24:41]

14. 인간 평가는 비용·속도·주관성 때문에 자동 지표가 필요해진다

모델 평가 때마다 사람이 개입하면 평가 작업이 매우 비싸진다 [25:36]
하루 24시간이라는 물리적 한계 때문에 반복 평가 속도도 느려진다 [25:51]
“이미지가 충분히 잘 조명됐는가” 같은 질문은 사람마다 기준이 달라질 수 있다 [26:00]
동일한 출력에도 평가자에 따라 결과가 달라질 위험이 있으므로 자동 평가 지표가 필요해진다 [26:15]

15. Reference-free metric은 단일 정답 이미지 비교의 불공정성을 피한다

텍스트-이미지 생성에서는 텍스트 프롬프트가 입력이고 모델 출력은 이미지다 [26:58]
같은 프롬프트에서도 여러 방식의 유효한 이미지가 나올 수 있다 [27:13]
하나의 reference image만 기준으로 삼으면 생성 결과가 항상 그 단일 이미지와 비교된다 [27:24]
이 경우 다른 타당한 생성 방식이 불리해질 수 있다 [27:39]

16. FID는 실제 이미지와 생성 이미지의 분포를 같은 표현 공간에서 비교한다

이미지 품질은 미학성과 프롬프트 준수로 나눠 볼 수 있으며, 여기서는 먼저 미학성 평가가 중심이 된다 [28:01]
생성 이미지가 얼마나 자연스럽고 보기 좋은지 평가하는 것이 첫 번째 관심사다 [28:16]
단일 생성 이미지와 단일 실제 이미지를 비교하는 대신, 여러 생성 이미지와 여러 실제 이미지를 모아 두 집합의 분포를 비교할 수 있다 [28:32]

17. 분포의 위치와 모양 차이가 FID의 핵심이며 낮을수록 좋다

생성 이미지도 다양해야 하므로 분포의 spread가 중요하다 [30:58]
공분산은 생성 결과가 얼마나 다양한 방향으로 퍼져 있는지를 평가하는 데 쓰인다 [31:13]
FID 공식의 첫 항은 실제 이미지 분포와 생성 이미지 분포의 평균 차이를 통해 위치 차이를 계산한다 [31:16]
두 번째 항은 공분산을 통해 분포 모양의 차이를 반영한다 [31:31]

18. 비교 가능성을 위해 실제 데이터와 동일한 encoder 표현을 써야 한다

Gaussian 가정 아래에서는 실제 이미지 분포와 생성 이미지 분포의 transport effort를 닫힌형 공식으로 계산할 수 있다 [33:44]
Gaussian 분포는 복잡한 분포 간 비교 계산을 단순화하는 대표 사례가 된다 [33:59]
“real” 이미지는 생성되지 않은 실제 데이터셋 이미지다 [34:52]
실제 이미지들도 사전학습 encoder를 통과한 representation으로 분포를 구성한다 [35:07]

19. FID 비교는 과제와 맞는 실제 이미지 분포가 기준이다

픽셀 공간 diffusion에서도 생성 이미지를 마지막에 Inception 모델에 넣어 representation을 만들 수 있다 [36:00]
실제 이미지와 생성 이미지를 같은 feature 공간에서 비교하는 흐름은 그대로 유지된다 [36:15]
생성 모델의 성능은 얼굴, 자연 장면, 실내 장면처럼 실제로 중요한 과제에 맞춰 평가해야 한다 [36:33]
비교용 실제 이미지 집합도 관심 대상과 같은 분포를 대표해야 한다 [36:48]

20. FID 50k 관행과 metric inertia가 평가 방식을 고정한다

실무에서 FID는 보통 50,000개 실제 이미지와 50,000개 생성 이미지를 비교하는 FID 50k 스케일로 쓰인다 [37:54]
30,000개처럼 수만 장 단위 sample size도 사용된다 [38:09]
평균과 분산, 분포의 shape 차이가 이미지 품질을 대표한다는 가정은 완벽하지 않다 [38:42]
커뮤니티도 FID의 한계를 계속 문제 삼지만, 기존 관행이 평가 방식을 강하게 고정한다 [38:57]

21. FID의 location·shape 해석과 reference-free 의미가 분포 비교로 좁혀진다

feature distribution의 location 차이가 크면 생성 이미지의 품질이나 스타일이 실제 이미지와 다를 가능성이 있다 [40:23]
shape 차이가 크면 생성 결과가 좁은 영역에 몰려 다양성이 부족할 수 있다 [40:38]
FID 50k는 특정 데이터셋의 reference distribution을 기준으로 삼는다 [41:00]
여기서 reference-free라는 말은 생성 이미지 하나를 실제 이미지 하나와 직접 짝지어 비교하지 않는다는 뜻이다 [41:15]

22. 가우시안 가정은 FID의 핵심 한계다

실제 이미지 분포와 생성 이미지 분포는 일반적으로 가우시안이 아니다 [41:40]
이 때문에 FID 공식은 데이터 현실을 100% 반영하지 못한다 [41:55]
FID 공식은 Wasserstein distance에서 온 형태다 [42:02]
두 분포가 가우시안일 때의 비교식이므로, 비가우시안 이미지 분포에서는 metric validity에 구조적 제약이 생긴다 [42:17]

23. Prompt adherence는 CLIP score와 preference 기반 P-score로 보완된다

CLIP은 텍스트와 이미지를 각각 encoder에 통과시킨다 [43:05]
contrastive loss를 통해 유사한 텍스트-이미지 쌍의 score를 높이고 다른 쌍의 score를 낮추는 방식으로 alignment를 학습한다 [43:20]
CLIP score는 생성에 사용한 input text와 generated image를 함께 넣어 두 요소가 얼마나 잘 맞는지 수치화한다 [43:42]

24. Reference-based 평가는 VAE 재구성과 이미지 편집처럼 기준 출력이 있는 경우에 필요하다

평가 대상은 image generation model만이 아니다 [45:35]
VAE처럼 입력을 재구성하는 구성요소에서는 원본 입력이라는 명확한 reference가 존재한다 [45:50]
VAE의 proxy task는 original input reconstruction이므로 output과 target output을 직접 비교할 수 있다 [46:08]
이런 경우 reference-free가 아니라 reference-based metric이 필요하다 [46:23]

25. 픽셀 단위 MSE와 정렬 민감도

MSE는 원본 이미지와 생성 이미지의 같은 위치 픽셀 사이 거리를 모든 픽셀에 대해 계산한다 [48:08]
복원 품질을 가장 직접적인 픽셀 차이로 측정하는 방식이다 [48:23]
완벽에 가까운 재구성이라도 몇 픽셀 오른쪽으로 밀리면 대응 픽셀이 달라져 MSE가 크게 악화된다 [48:51]
위치 정렬이 평가 결과를 지배하는 리스크가 생긴다 [49:06]

26. PSNR의 정규화와 로그 스케일의 의미

PSNR은 MSE를 가능한 최대 값 기준으로 정규화해 픽셀 스케일 차이를 줄인다 [49:40]
복원 오차를 비교 가능한 맥락 안에 놓는 것이 PSNR의 역할이다 [49:55]
로그 변환은 어두운 방에서 전구 하나가 켜질 때와 이미 밝은 방에서 전구 하나가 더 켜질 때의 체감 차이가 다르다는 직관과 연결된다 [50:03]

27. 구조적 유사성 평가의 세 가지 축

구조 기반 지표는 원본과 생성 이미지의 같은 위치 패치를 비교한다 [51:57]
단순 픽셀 차이가 아니라 패치 전체가 비슷한 구조를 갖는지 본다 [52:12]
첫 번째 축은 색 강도와 밝기다 [52:39]
패치 안 픽셀들의 평균을 계산해 두 이미지의 luminance 유사성을 수치화한다 [52:54]

28. Dice 계수 형태의 유사도 직관

luminance 유사도 식은 두 패치 평균을 입력으로 받아 하나의 유사도 값을 만든다 [53:52]
안정성을 위해 0 근처 상황을 보완하는 상수가 포함된다 [54:07]
식의 핵심 형태는 2ab / (a² + b²)다 [54:25]
a와 b가 양수일 때 이 값은 0과 1 사이에 놓이는 유사도 계수로 읽힌다 [54:40]

29. 상대적 차이를 반영하는 예시와 SSIM 조합

a=10, b=20이면 차이가 10이라도 Dice 유사도는 약 0.8 수준이다 [57:06]
낮은 값 구간에서는 같은 절대 차이가 더 큰 불일치로 작용한다 [57:21]
a=100, b=110이면 차이는 여전히 10이지만 유사도는 약 0.995에 가까워진다 [57:35]
높은 값 구간에서는 같은 절대 차이가 상대적으로 작게 취급된다 [57:50]

30. SSIM의 구조 유사도 계산과 한계

SSIM은 모든 이미지 패치에서 구조 유사도 점수를 계산한 뒤 평균을 낸다 [1:00:15]
결과값은 -1에서 1 사이이며, 1에 가까울수록 구조적으로 더 비슷한 이미지에 해당한다 [1:00:30]
SSIM은 MSE나 PSNR보다 픽셀 단위 차이에 덜 의존한다 [1:00:50]
패치 범위를 넘어서는 위치 이동이 있으면 여전히 점수가 흔들리는 한계를 가진다 [1:01:05]

31. LPIPS의 표현 공간 비교와 인간 지각 정렬

LPIPS는 원본과 재구성 이미지를 픽셀 공간에서 직접 비교하지 않는다 [1:01:31]
각각을 사전학습 인코더에 통과시켜 얻은 표현을 비교한다 [1:01:46]
인코더의 특정 layer 표현 사이의 거리를 계산하면 픽셀 정렬 여부보다 사람이 보기에 얼마나 비슷한지에 가까운 정보를 얻는다 [1:02:03]

32. LPIPS의 인코더 선택과 배치 집계

LPIPS에서 VGG나 AlexNet 같은 preset 인코더를 주로 쓰는 이유는 layer별 계수 W가 사용하는 인코더에 종속되기 때문이다 [1:03:16]
공식의 거리 항은 원본 이미지와 재구성 이미지의 feature map 차이를 포함한다 [1:03:50]
이 차이에 layer별 계수 W를 element-wise로 곱해 지각적 차이를 계산한다 [1:04:05]

33. 수학적 지표에서 멀티모달 평가 모델로 전환한다

MSE, PSNR, SSIM, LPIPS는 서로 다른 수준에서 동작하는 수학적 지표다 [1:05:00]
평가 결과를 직관적으로 해석하려면 별도의 설명 경로가 필요하다 [1:05:15]
기존 transformer는 텍스트를 텍스트로 바꾸고, DiT는 latent noise와 조건에서 이미지를 생성한다 [1:05:48]
MMDiT는 텍스트 guidance를 포함한 이미지 생성을 다룬다 [1:06:03]

34. 이미지·텍스트 토큰과 cross-attention 기반 설계를 보여준다

이미지와 텍스트는 모두 토큰으로 변환될 수 있다 [1:07:07]
결국 임베딩을 받아 해석 가능한 텍스트로 바꾸는 아키텍처가 핵심 문제가 된다 [1:07:22]
한 가지 자연스러운 선택은 텍스트 기반 transformer의 cross-attention을 활용하는 것이다 [1:07:35]
이 방식에서는 텍스트 토큰이 이미지 임베딩의 key와 value에 attend한다 [1:07:50]

35. Decoder-only 입력 통합이 최신 멀티모달 LLM 흐름이 된다

Cross-attention 기반 설계는 최신 decoder-only 대형 언어 모델의 성과를 그대로 활용하기 어렵다 [1:09:07]
잘 작동하도록 튜닝된 기존 모델에 cross-attention을 다시 설계해야 하는 부담이 생긴다 [1:09:22]
다른 흐름은 이미지 토큰과 텍스트 토큰을 모두 decoder-only 모델의 입력으로 직접 넣는 방식이다 [1:09:42]
이 방식은 멀티모달 입력을 하나의 시퀀스로 처리하는 최신 흐름과 연결된다 [1:09:57]

36. 이미지 속 텍스트와 평가 근거의 필요성이 커진다

생성 모델은 다양한 입력에서 작동해야 하며, 간판처럼 이미지 안에 텍스트가 들어가는 경우 문자가 읽을 수 있어야 한다 [1:12:09]
이미지 안의 텍스트 품질은 생성 결과의 평가에서 중요한 요소가 된다 [1:12:24]
이미지 평가 모델은 OCR처럼 문자 인식 능력을 갖춰야 한다 [1:12:29]
단순 점수만 내는 블랙박스보다 어떤 근거로 등급이 나왔는지가 중요하다 [1:12:44]

37. TIFA 방식은 원자적 질문 분해로 디버깅을 돕는다

전통적 지표는 CLIP score 같은 숫자를 제공해도 무엇을 고쳐야 하는지 바로 알려주기 어렵다 [1:13:20]
특정 프롬프트와 생성 이미지에서 실패 원인을 찾으려면 더 세분화된 평가가 필요하다 [1:13:35]
TIFA는 프롬프트가 이미지에서 만족해야 할 속성을 원자적 속성으로 나눈다 [1:14:02]
few-shot 예시를 통해 yes/no 형태의 단순 질문들을 만든다 [1:14:17]

38. 프롬프트별 rubric 생성에는 비용과 가중치 문제가 있다

프롬프트마다 별도 grading rubric이 필요하다 [1:15:47]
데이터셋의 각 입력마다 평가 기준을 만드는 과정은 bespoke하고 비용이 크며 오류 가능성도 생긴다 [1:16:02]
여러 질문이 프롬프트의 다양한 측면을 검사하더라도 각 claim의 가중치가 실제 중요도와 일치하지 않을 수 있다 [1:16:23]

39. CLIP score는 미세한 의미 차이에 약하다

CLIP score는 생성 이미지의 의미가 프롬프트와 보존됐는지 어느 정도 보여준다 [1:17:34]
하지만 프롬프트 변형이 만드는 미세한 의미 차이를 벡터 내적만으로 충분히 담기 어렵다 [1:17:49]
“귀여운 곰이 책을 읽는” 예시에서 book과 teddy bear의 위치나 역할을 바꾸면 직관적으로 완전히 다른 이미지가 된다 [1:18:08]
이런 큰 의미 차이에도 CLIP score는 크게 변하지 않을 수 있다 [1:18:23]

40. VQA score는 yes 확률로 프롬프트 일치를 평가한다

CLIP은 전체 문장의 임베딩을 사용하지만, 다른 접근은 이미지와 문장을 같은 입력 구조에 넣는다 [1:19:40]
둘이 맞는지에 대한 next-token 확률을 점수로 사용할 수 있다 [1:19:55]
VQA score는 이미지 뒤에 “이 그림이 프롬프트 내용을 보여주는가”라는 고정 템플릿을 붙인다 [1:20:28]
다음 토큰 분포에서 yes 토큰의 확률을 평가 점수로 삼는다 [1:20:43]

41. Next-token probability 방식은 접근성과 비용의 한계가 있다

VQA score 방식은 next-token probability 분포 접근이 필요하다 [1:22:28]
최신 closed-source 모델들은 이 정보를 공개하지 않는 경우가 많고, distillation 관점에서도 민감한 정보다 [1:22:43]
질문마다 별도 멀티모달 모델 호출이 필요해 비용이 크다 [1:23:01]
병렬 실행으로 지연을 줄일 수 있어도 분해된 차원 수가 늘수록 전체 비용은 함께 증가한다 [1:23:16]

42. 프롬프트 중심 평가에서 개념 중심 평가로 전환한다

좋은 결과를 프롬프트별로 직접 지정하기보다, 좋은 결과의 개념을 일반적인 기준으로 정의하는 방식이 더 매력적이다 [1:24:01]
MLM의 추론 능력을 활용해 일반 기준을 최종 점수로 연결할 수 있다 [1:24:16]
VIE Score는 프롬프트, 생성 이미지, 루브릭을 함께 입력으로 둔다 [1:24:41]
의미적 일관성과 지각적 품질이라는 두 축에 대해 점수화하는 방식을 형식화한다 [1:24:56]

43. MLM-as-a-judge는 구조화 출력으로 인간 판단에 맞춘다

평가 입력에는 이미지와 프롬프트가 들어간다 [1:26:36]
각 평가 차원별로 만든 가이드라인을 기준으로 MLM-as-a-judge가 정해진 형식의 결정을 출력한다 [1:26:51]
JSON 같은 구조화 형식은 점수, 근거, 추가 필드를 분리해 파싱할 수 있다 [1:27:03]
구조화 출력은 평가 결과를 후처리하거나 자동 분석하기 쉽게 만든다 [1:27:18]

44. 점별 평가, 쌍대 비교, 랭킹은 용도가 다르다

점별 평가는 하나의 프롬프트와 하나의 이미지를 놓고 결과가 좋은지 판단한다 [1:29:20]
단일 출력의 품질을 빠르게 파악하고 실패 모드를 찾는 데 적합하다 [1:29:35]
점별 평가의 근거 출력은 이미지 생성 모델 자체를 개선할지 판단하는 단서가 된다 [1:29:55]
또는 judge의 보정 기준을 다시 조정할지 판단하는 디버깅 단서가 된다 [1:30:10]

45. 태스크별 루브릭과 근거 우선 출력이 필요하다

실제 사용 사례에서는 VIE Score의 두 축만으로 부족할 수 있다 [1:31:28]
특정 목적에 맞는 별도 기준을 원자적이고 분리된 메트릭으로 추가해야 한다 [1:31:43]
평가 기준은 일반 품질 기준과 태스크 특화 기준을 함께 포함해야 한다 [1:31:46]
관심 대상이 섞이지 않도록 각 기준을 독립적으로 설계하는 편이 judge의 해석 가능성을 높인다 [1:32:01]

46. 결정성, 위치 편향, 인간 정렬을 점검해야 한다

일반 챗봇에서는 품질 향상을 위해 temperature가 0이 아닌 경우가 많다 [1:33:03]
입력과 루브릭에 근거한 정밀한 판단 작업에서는 창의성보다 일관성이 더 중요하다 [1:33:18]
평가 judge는 반복 실행마다 같은 조건에서 같은 결과를 내야 한다 [1:33:32]
temperature를 0으로 두는 결정적 설정이 실무적으로 적합하다 [1:33:47]

47. 이미지 생성 벤치마크와 GenEval은 객체·속성 반영을 검증한다

이미지 생성 벤치마크는 프롬프트에 포함된 객체와 핵심 속성이 생성 이미지에 실제로 반영되는지를 다룬다 [1:34:22]
평가 관심 영역을 여러 축으로 나눠 모델의 구체적 실패를 확인한다 [1:34:37]
GenEval은 난이도가 증가하는 여섯 가지 과제를 통해 모델을 평가한다 [1:34:59]
객체 존재, 객체 수, 색상, 상대적 위치, 색상 속성 귀속 같은 요소를 검증한다 [1:35:14]

48. DPGBench는 논리 그래프 기반으로 세부 조건을 평가한다

긴 텍스트 프롬프트는 속성, 관계, 공간 위치를 중심으로 예/아니오 질문들로 분해된다 [1:36:00]
세부 조건이 실제 이미지에 정확히 렌더링됐는지 확인하는 구조가 된다 [1:36:15]
DPGBench는 분해된 조건들을 논리 그래프로 묶는다 [1:36:28]
특정 속성을 판단하기 전에 그 속성의 전제가 되는 객체나 공간이 먼저 존재하는지 확인한다 [1:36:43]

49. OCR 텍스트 생성과 이미지 편집도 별도 평가 대상이 된다

이미지 생성에서 OCR 능력은 벽면이나 장면 안의 긴 텍스트를 얼마나 정확히 생성하는지와 연결된다 [1:37:37]
Long Text Bench는 텍스트 표시가 중요한 시나리오를 평가 대상으로 삼는다 [1:37:52]
생성 이미지 안의 텍스트를 VLM 또는 OCR judge가 읽어낸다 [1:38:12]
읽어낸 텍스트를 생성 프롬프트의 기준 텍스트와 비교해 일치 여부로 텍스트 생성 성공을 판단한다 [1:38:27]

50. 지표와 샘플 이미지 판단에는 한계가 있다

평가에는 정량 지표와 MLLM-as-a-judge 방식이 함께 쓰인다 [1:39:40]
judge 성능은 튜닝 방식에 의존하며, 절대적인 성능 판단 기준은 존재하지 않는다 [1:39:55]
몇 장의 샘플 이미지만 보고 모델 품질을 판단하면, 어떤 이미지를 골라 보여주는지에 따라 같은 모델도 전혀 다른 분포처럼 보일 수 있다 [1:39:58]
최종적으로 평가는 단일 지표나 선택된 샘플에 의존하기보다, 목적에 맞는 지표·judge·벤치마크를 조합해 해석해야 한다 [100:06] [1:40:49]

🧾 결론

이 강의의 중심 메시지는 “좋은 생성 이미지”를 하나의 점수로 단순화하기 어렵다는 점이다. 이미지가 아름다워도 프롬프트를 따르지 않으면 실패이고, 프롬프트를 따라도 지각 품질이 낮으면 좋은 결과로 보기 어렵다.
인간 평가는 직관적이지만 비싸고 느리며 주관적이다. 그래서 평균 평점, pass rate, pairwise preference, ELO 같은 방식으로 노이즈를 줄이고 비교 가능성을 높이려는 설계가 필요하다.
FID 같은 분포 기반 지표는 생성 모델 전체의 품질을 비교하는 데 유용하지만, 가우시안 가정과 실제 지각 품질 반영의 한계를 가진다. 따라서 논문이나 리더보드에서는 수치와 샘플 이미지를 함께 보되, 샘플 선택 방식도 의심해야 한다.
Reference-based metric은 VAE 재구성이나 이미지 편집처럼 기준 이미지가 있는 경우에 적합하다. 다만 MSE와 PSNR은 픽셀 정렬에 민감하고, SSIM과 LPIPS도 각각 구조적·지각적 유사도를 보완하지만 완전한 설명력을 제공하지는 않는다.
멀티모달 LLM-as-a-judge는 점수뿐 아니라 근거를 제공할 수 있다는 장점이 있다. 그러나 judge 자체도 인간 판단과 정렬되어야 하며, temperature, 위치 편향, 루브릭 설계 같은 운영 변수까지 관리해야 한다.

📈 투자·시사 포인트

AI 이미지 생성 모델 개발에서는 모델 크기나 샘플 품질만큼 평가 인프라에 대한 투자가 중요하다. 특히 미학, 프롬프트 준수성, 안전성, 다양성, 편향을 분리해 측정할 수 있는 평가 체계가 경쟁력의 일부가 된다.
리더보드나 벤치마크를 해석할 때는 단일 win rate나 일부 샘플 이미지에 과도하게 의존하면 안 된다. 상대 모델의 강도, 샘플 선택 방식, 평가 데이터셋의 task alignment를 함께 확인해야 한다.
FID, CLIP score, LPIPS 같은 기존 metric은 여전히 비교 기준으로 쓰이지만, 각각의 한계가 명확하다. 실무적 의사결정에는 여러 지표와 인간 평가, 그리고 실패 사례 분석을 결합하는 방식이 더 적합하다.
멀티모달 judge 기반 평가는 평가 자동화의 중요한 방향이지만, 검증 없이 절대 기준으로 쓰기에는 위험하다. 인간 선호 데이터와의 정렬, 루브릭 품질, 결정적 실행 설정, 위치 편향 보정이 함께 필요하다.
검증 필요: 강의 transcript에는 특정 최신 모델의 실제 성능 순위나 벤치마크 수치가 제공되지 않는다. 특정 모델의 우열, 투자 가치, 상용 적용 가능성을 판단하려면 별도의 실험 결과와 공개 리더보드 데이터를 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

FID 50k 관행은 강의에서 대표적 평가 방식으로 설명되지만, 실제 비교에 사용하려면 데이터셋, 샘플 수, Inception feature 추출 방식이 기존 논문 또는 리더보드와 동일한지 확인해야 한다.
ELO rating 예시는 상대 모델 강도를 반영하는 직관을 보여주지만, 실제 리더보드 운영에서 사용할 K 값, 무승부 처리 방식, 모델별 비교 횟수는 강의 내용만으로 확정할 수 없다.
VQA score나 MLLM-as-a-judge 방식은 next-token probability, 구조화 출력, 루브릭 정렬에 의존하므로, 특정 closed-source 모델에서 필요한 확률값이나 일관된 판단 근거를 얻을 수 있는지는 별도 검증이 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

텍스트-이미지 모델 평가를 설계할 때 미학적 품질, 프롬프트 준수성, 안전성, 다양성, 암기 방지, 편향을 별도 평가 축으로 분리한다.
사람 평가를 수집할 경우 5점 척도, 이진 pass rate, 쌍대 비교 중 어떤 방식이 목적과 비용에 맞는지 먼저 정한다.
모델 간 비교 리더보드를 만들 때 단순 win rate만 쓰지 말고, 상대 모델 강도를 반영하는 ELO류 rating 적용 가능성을 검토한다.
FID를 사용할 때는 비교 대상 모델들이 같은 실제 이미지 분포, 같은 encoder representation, 같은 샘플 규모에서 평가되는지 확인한다.

❓ 열린 질문

FID처럼 오래 쓰인 지표와 MLLM-as-a-judge처럼 설명 가능한 평가 방식 중, 실제 모델 개발 루프에서는 어느 쪽을 주 지표로 삼고 어느 쪽을 보조 지표로 삼아야 할까요?
프롬프트의 핵심 조건이 실패했을 때 단순 평균 rubric 점수보다 더 강하게 페널티를 주려면, 조건별 가중치를 어떤 방식으로 설계해야 할까요?
인간 평가와 자동 judge가 충돌할 때, 어느 정도의 불일치를 허용하고 언제 judge rubric을 다시 조정해야 할까요?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. 평가 주제로 들어가기 전 학습 과정의 핵심을 복기한다

2. 사전학습과 후속학습은 생성 능력과 이미지 품질을 나눠 개선한다

3. 개인화와 증류 이후 평가 문제가 본격화된다

4. 같은 프롬프트에서도 실패 원인은 미학과 프롬프트 불일치로 갈린다

5. 이미지 평가는 미학적 품질과 프롬프트 준수성을 중심으로 나뉜다

6. 안전성·다양성·일반화·편향까지 평가 범위가 확장된다

7. 5점 척도 평균 평점의 장점과 노이즈 문제

8. 이진 pass rate는 쉬워지지만 절대 기준이 남는다

9. 쌍대 비교는 절대 평가보다 낮은 노이즈를 만든다

10. 단순 승률은 상대 모델의 강도를 놓친다

11. 리더보드는 모든 모델을 매번 비교하기 어렵다

12. 기대 승률과 실제 결과의 차이로 rating을 갱신한다

13. ELO 점수는 상대 강도를 반영해 리더보드 평가 비용을 줄인다

14. 인간 평가는 비용·속도·주관성 때문에 자동 지표가 필요해진다

15. Reference-free metric은 단일 정답 이미지 비교의 불공정성을 피한다

16. FID는 실제 이미지와 생성 이미지의 분포를 같은 표현 공간에서 비교한다

17. 분포의 위치와 모양 차이가 FID의 핵심이며 낮을수록 좋다

18. 비교 가능성을 위해 실제 데이터와 동일한 encoder 표현을 써야 한다

19. FID 비교는 과제와 맞는 실제 이미지 분포가 기준이다

20. FID 50k 관행과 metric inertia가 평가 방식을 고정한다

21. FID의 location·shape 해석과 reference-free 의미가 분포 비교로 좁혀진다

22. 가우시안 가정은 FID의 핵심 한계다

23. Prompt adherence는 CLIP score와 preference 기반 P-score로 보완된다

24. Reference-based 평가는 VAE 재구성과 이미지 편집처럼 기준 출력이 있는 경우에 필요하다

25. 픽셀 단위 MSE와 정렬 민감도

26. PSNR의 정규화와 로그 스케일의 의미

27. 구조적 유사성 평가의 세 가지 축

28. Dice 계수 형태의 유사도 직관

29. 상대적 차이를 반영하는 예시와 SSIM 조합

30. SSIM의 구조 유사도 계산과 한계

31. LPIPS의 표현 공간 비교와 인간 지각 정렬

32. LPIPS의 인코더 선택과 배치 집계

33. 수학적 지표에서 멀티모달 평가 모델로 전환한다

34. 이미지·텍스트 토큰과 cross-attention 기반 설계를 보여준다

35. Decoder-only 입력 통합이 최신 멀티모달 LLM 흐름이 된다

36. 이미지 속 텍스트와 평가 근거의 필요성이 커진다

37. TIFA 방식은 원자적 질문 분해로 디버깅을 돕는다

38. 프롬프트별 rubric 생성에는 비용과 가중치 문제가 있다

39. CLIP score는 미세한 의미 차이에 약하다

40. VQA score는 yes 확률로 프롬프트 일치를 평가한다

41. Next-token probability 방식은 접근성과 비용의 한계가 있다

42. 프롬프트 중심 평가에서 개념 중심 평가로 전환한다

43. MLM-as-a-judge는 구조화 출력으로 인간 판단에 맞춘다

44. 점별 평가, 쌍대 비교, 랭킹은 용도가 다르다

45. 태스크별 루브릭과 근거 우선 출력이 필요하다

46. 결정성, 위치 편향, 인간 정렬을 점검해야 한다

47. 이미지 생성 벤치마크와 GenEval은 객체·속성 반영을 검증한다

48. DPGBench는 논리 그래프 기반으로 세부 조건을 평가한다

49. OCR 텍스트 생성과 이미지 편집도 별도 평가 대상이 된다

50. 지표와 샘플 이미지 판단에는 한계가 있다

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

AI 뉴스 - 클로드 Fable 5 금지, Gemini 실시간 번역, GLM-5.2, Kimi-K2.7-Code, MiniMax M3, SpaceX AI1 위성 등

앤트로픽 클로드의 최상위 모델 Fable, 탈옥 논란으로 막히다

[한글자막] Matt Pocock의 에이전틱 엔지니어링 워크플로우를 그대로 따라 해보세요

삼성전자 -10%, 건강한 조정이어야만 한다

알리 세일 어떤 제품을 구매했을까? 쇼핑토크

테슬라 벌써 네번째! 점점 기세가 심상치 않다