Stanford CME296 Diffusion & Large Vision Models
Quick Summary
Stanford CME296 Lecture 7 Evaluation은 텍스트 이미지 생성 모델 평가가 “보기 좋은가”와 “프롬프트를 따르는가”에서 출발해, 인간 선호·분포 기반 지표·지각 유사도·멀티모달 judge까지 확장되는 문제임을 보여준다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Stanford CME296 Lecture 7 - Evaluation은 텍스트-이미지 생성 모델 평가가 “보기 좋은가”와 “프롬프트를 따르는가”에서 출발해, 인간 선호·분포 기반 지표·지각 유사도·멀티모달 judge까지 확장되는 문제임을 보여준다.
📌 핵심 요점
- 이미지 생성 모델 평가는 미학적 품질과 프롬프트 준수성이 핵심 축이며, 여기에 안전성·다양성·암기 방지·편향 같은 리스크 평가가 추가된다.
- 인간 평가는 5점 척도, 이진 pass rate, 쌍대 비교로 설계할 수 있으며, 쌍대 비교는 절대 점수보다 노이즈가 낮지만 단순 win rate는 상대 모델의 강도를 반영하지 못한다.
- ELO rating은 기대 승률과 실제 결과의 차이로 모델 점수를 갱신해, 리더보드에서 모든 모델을 매번 전수 비교해야 하는 부담을 줄이는 방식으로 소개된다.
- 자동 평가지표는 목적에 따라 나뉜다. FID는 실제 이미지와 생성 이미지의 분포 차이를 보고, CLIP score와 P-score는 텍스트-이미지 정렬 및 인간 만족도를 다루며, MSE·PSNR·SSIM·LPIPS는 기준 이미지가 있는 재구성·편집 평가에 쓰인다.
- 최신 평가는 단순 숫자 지표를 넘어 멀티모달 모델을 judge로 활용하는 방향으로 이동한다. TIFA, VQA score, VIE Score, GenEval, DPGBench는 프롬프트 조건을 더 세밀하게 분해하거나 근거를 포함한 평가를 시도한다.
🧩 배경과 문제 정의
- 텍스트-이미지 생성 모델의 출력 품질을 개선하려면, 먼저 생성 이미지가 얼마나 좋은지 평가할 기준이 필요하다.
- 이미지 평가는 단순히 보기 좋은지를 판단하는 문제가 아니라, 입력 프롬프트를 얼마나 정확히 따르는지도 함께 봐야 하는 문제다.
- 핵심 평가 축은 미학적 품질과 프롬프트 준수성이지만, 실제 모델 평가에서는 안전성·다양성·암기 방지·편향·일반화 같은 리스크도 함께 고려해야 한다.
🕒 시간순 섹션별 상세정리
1. 평가 주제로 들어가기 전 학습 과정의 핵심을 복기한다
- 텍스트-이미지 생성 모델의 출력 품질을 평가해야 모델 개선 방향을 판단할 수 있으며, 평가 자체가 모델 개발의 출발점이 된다 [00:12]
- 이전 강의의 학습 손실에서는 타임스텝을 균등하게 다루는 방식이 공정하지 않으며, 중간 단계가 더 어렵기 때문에 logit-normal 분포가 중간 타임스텝에 더 큰 비중을 둔다 [01:01]
2. 사전학습과 후속학습은 생성 능력과 이미지 품질을 나눠 개선한다
- 사전학습의 목표는 모델이 이미지를 생성하는 기본 능력을 배우게 하는 것이다 [02:42]
- 커리큘럼 러닝은 쉬운 작업을 먼저 익힌 뒤 더 어려운 작업으로 넘어가게 만드는 학습 전략이다 [02:57]
- DIT 기반 모델에서는 다양한 해상도를 처리하는 문제가 결국 더 긴 입력을 다루는 문제로 바뀌며, 구조적으로 해상도 확장이 가능해진다 [03:08]
3. 개인화와 증류 이후 평가 문제가 본격화된다
- DreamBooth는 희귀 토큰을 활용해 특정 객체나 인물을 학습하고, 추론 시점에는 튜닝된 모델이 그 학습 내용을 활용해 개인화된 이미지를 만든다 [04:21]
- 증류 기법들은 추론에 필요한 단계 수를 줄이는 데 초점을 두며, progressive distillation과 distribution matching distillation 같은 방식이 여기에 속한다 [04:55]
4. 같은 프롬프트에서도 실패 원인은 미학과 프롬프트 불일치로 갈린다
- “책을 읽는 테디베어”라는 프롬프트에서 첫 번째 생성 이미지는 보기 불편하고 미학적 품질이 낮아 좋은 출력으로 보기 어렵다 [05:49]
- 두 번째 이미지는 시각적으로는 괜찮아 보일 수 있지만, 테디베어가 책을 읽는 장면이 아니기 때문에 프롬프트 준수성에서 실패한다 [06:51]
5. 이미지 평가는 미학적 품질과 프롬프트 준수성을 중심으로 나뉜다
- 생성 이미지를 단독으로 봤을 때 좋은 그림인지, 물리적으로 그럴듯한지, 지각 품질이 충분한지가 미학적 품질의 주요 판단 기준이다 [08:11]
- 책이 테이블 위에 있는지처럼 물체 배치가 물리적으로 자연스러운지도 미학적 품질 평가에 포함된다 [08:45]
- 전체 이미지가 현실적이고 보기 좋은지 판단하는 것이 첫 번째 평가 축이다 [09:00]
6. 안전성·다양성·일반화·편향까지 평가 범위가 확장된다
- 미학과 프롬프트 준수성만으로는 평가 기준이 완결되지 않으며, 위험하게 해석될 수 있는 장면을 피하는 안전성도 별도의 기준이 된다 [09:44]
- 같은 프롬프트에서 항상 같은 결과만 생성하면 다양성이 부족한 모델이 된다 [10:06]
- 학습 입력을 그대로 외워 재현하면 일반화 능력이 약하다는 문제가 생긴다 [10:21]
7. 5점 척도 평균 평점의 장점과 노이즈 문제
- 1점은 매우 나쁘고 5점은 매우 좋은 이미지라는 기준을 두고, 각 이미지에 점수를 매기는 방식이 가능하다 [12:00]
- 데이터셋 전체 성능은 각 이미지 평점의 합을 평가 수로 나눈 평균 평점으로 계산된다 [12:15]
- 5점 척도는 “좋은 이미지”와 “매우 좋은 이미지”를 구분할 수 있어 평가가 세밀하다 [12:41]
- 선택지가 많아질수록 같은 이미지에도 5점·4점·3점처럼 사람마다 다른 해석이 생겨 노이즈가 커진다 [12:56]
8. 이진 pass rate는 쉬워지지만 절대 기준이 남는다
- 1~5점 척도의 어려움을 줄이기 위해 이미지를 좋음과 나쁨으로 나누는 이진 평가로 바꿀 수 있다 [13:48]
- 이진 평가에서는 사람은 이미지가 기준을 통과했는지만 판단하면 된다 [14:03]
- 이진 설정에서는 평점 합을 평가 수로 나눈 값이 pass rate가 되며, 전체 이미지 중 기준을 통과한 비율이 모델 성능 지표가 된다 [14:16]
9. 쌍대 비교는 절대 평가보다 낮은 노이즈를 만든다
- 쌍대 비교에서는 같은 입력 프롬프트로 두 이미지를 생성한 뒤, 두 이미지 중 어느 쪽이 더 나은지만 고른다 [15:16]
- 절대 기준에서는 이미지가 기준 이상인지에 대해 사람마다 기대치가 갈릴 수 있다 [16:03]
- 두 이미지를 직접 비교하면 어느 쪽이 더 나은지 판단하기 쉬워져 평가 노이즈가 줄어든다 [16:18]
10. 단순 승률은 상대 모델의 강도를 놓친다
- 쌍대 비교의 가장 단순한 지표는 특정 모델이 이긴 횟수를 전체 비교 횟수로 나눈 win rate다 [16:41]
- 모델 A의 이미지가 상대보다 선택된 비율을 성능으로 삼을 수 있다 [16:56]
- 단순 win rate는 비교 상대가 누구인지 반영하지 못한다 [17:14]
- 하나의 기준 모델과만 비교할 때는 쓸 수 있지만, 여러 모델이 섞인 환경에서는 성능 해석이 불안정해진다 [17:29]
11. 리더보드는 모든 모델을 매번 비교하기 어렵다
- 텍스트-이미지 생성 모델 리더보드에서는 모델들이 순위로 나열되지만, 새 모델이 들어오고 기존 모델이 빠지면서 비교 대상 집합이 계속 바뀐다 [18:36]
- 새 모델의 win rate를 공정하게 만들려면 해당 모델을 목록의 모든 모델과 비교해야 한다 [18:53]
- 공정성을 유지하려면 목록의 모든 기존 모델도 서로 다시 비교해야 하므로 평가 비용이 커진다 [19:08]
12. 기대 승률과 실제 결과의 차이로 rating을 갱신한다
- 각 모델에 rating R을 두면, 상대 모델의 기존 강도 차이를 점수 계산에 반영할 수 있다 [20:51]
- 신규 모델 A가 1000점에서 시작하고 상대 모델이 600점이라면, rating 차이에 따라 A의 기대 승률이 높게 계산된다 [21:06]
- 기대 점수는 1 / (1 + 10^((상대 rating - 내 rating) / 400)) 형태로 계산된다 [21:38]
- 1000점 모델이 600점 모델을 상대하면 기대 승률은 약 90%가 된다 [21:53]
13. ELO 점수는 상대 강도를 반영해 리더보드 평가 비용을 줄인다
- 아주 나쁜 모델을 상대로 이겨도 점수 상승은 크지 않다 [24:00]
- 약한 상대에게 지거나 비기면 현재 모델의 성능이 낮다는 신호가 되어 평점에 큰 하방 기여를 만든다 [24:15]
- 최종 평점은 기존 rating에 K × delta를 더해 갱신된다 [24:26]
- 이 절차가 리더보드에서 모델 성능을 추적하는 기본 레시피가 된다 [24:41]
14. 인간 평가는 비용·속도·주관성 때문에 자동 지표가 필요해진다
- 모델 평가 때마다 사람이 개입하면 평가 작업이 매우 비싸진다 [25:36]
- 하루 24시간이라는 물리적 한계 때문에 반복 평가 속도도 느려진다 [25:51]
- “이미지가 충분히 잘 조명됐는가” 같은 질문은 사람마다 기준이 달라질 수 있다 [26:00]
- 동일한 출력에도 평가자에 따라 결과가 달라질 위험이 있으므로 자동 평가 지표가 필요해진다 [26:15]
15. Reference-free metric은 단일 정답 이미지 비교의 불공정성을 피한다
- 텍스트-이미지 생성에서는 텍스트 프롬프트가 입력이고 모델 출력은 이미지다 [26:58]
- 같은 프롬프트에서도 여러 방식의 유효한 이미지가 나올 수 있다 [27:13]
- 하나의 reference image만 기준으로 삼으면 생성 결과가 항상 그 단일 이미지와 비교된다 [27:24]
- 이 경우 다른 타당한 생성 방식이 불리해질 수 있다 [27:39]
16. FID는 실제 이미지와 생성 이미지의 분포를 같은 표현 공간에서 비교한다
- 이미지 품질은 미학성과 프롬프트 준수로 나눠 볼 수 있으며, 여기서는 먼저 미학성 평가가 중심이 된다 [28:01]
- 생성 이미지가 얼마나 자연스럽고 보기 좋은지 평가하는 것이 첫 번째 관심사다 [28:16]
- 단일 생성 이미지와 단일 실제 이미지를 비교하는 대신, 여러 생성 이미지와 여러 실제 이미지를 모아 두 집합의 분포를 비교할 수 있다 [28:32]
17. 분포의 위치와 모양 차이가 FID의 핵심이며 낮을수록 좋다
- 생성 이미지도 다양해야 하므로 분포의 spread가 중요하다 [30:58]
- 공분산은 생성 결과가 얼마나 다양한 방향으로 퍼져 있는지를 평가하는 데 쓰인다 [31:13]
- FID 공식의 첫 항은 실제 이미지 분포와 생성 이미지 분포의 평균 차이를 통해 위치 차이를 계산한다 [31:16]
- 두 번째 항은 공분산을 통해 분포 모양의 차이를 반영한다 [31:31]
18. 비교 가능성을 위해 실제 데이터와 동일한 encoder 표현을 써야 한다
- Gaussian 가정 아래에서는 실제 이미지 분포와 생성 이미지 분포의 transport effort를 닫힌형 공식으로 계산할 수 있다 [33:44]
- Gaussian 분포는 복잡한 분포 간 비교 계산을 단순화하는 대표 사례가 된다 [33:59]
- “real” 이미지는 생성되지 않은 실제 데이터셋 이미지다 [34:52]
- 실제 이미지들도 사전학습 encoder를 통과한 representation으로 분포를 구성한다 [35:07]
19. FID 비교는 과제와 맞는 실제 이미지 분포가 기준이다
- 픽셀 공간 diffusion에서도 생성 이미지를 마지막에 Inception 모델에 넣어 representation을 만들 수 있다 [36:00]
- 실제 이미지와 생성 이미지를 같은 feature 공간에서 비교하는 흐름은 그대로 유지된다 [36:15]
- 생성 모델의 성능은 얼굴, 자연 장면, 실내 장면처럼 실제로 중요한 과제에 맞춰 평가해야 한다 [36:33]
- 비교용 실제 이미지 집합도 관심 대상과 같은 분포를 대표해야 한다 [36:48]
20. FID 50k 관행과 metric inertia가 평가 방식을 고정한다
- 실무에서 FID는 보통 50,000개 실제 이미지와 50,000개 생성 이미지를 비교하는 FID 50k 스케일로 쓰인다 [37:54]
- 30,000개처럼 수만 장 단위 sample size도 사용된다 [38:09]
- 평균과 분산, 분포의 shape 차이가 이미지 품질을 대표한다는 가정은 완벽하지 않다 [38:42]
- 커뮤니티도 FID의 한계를 계속 문제 삼지만, 기존 관행이 평가 방식을 강하게 고정한다 [38:57]
21. FID의 location·shape 해석과 reference-free 의미가 분포 비교로 좁혀진다
- feature distribution의 location 차이가 크면 생성 이미지의 품질이나 스타일이 실제 이미지와 다를 가능성이 있다 [40:23]
- shape 차이가 크면 생성 결과가 좁은 영역에 몰려 다양성이 부족할 수 있다 [40:38]
- FID 50k는 특정 데이터셋의 reference distribution을 기준으로 삼는다 [41:00]
- 여기서 reference-free라는 말은 생성 이미지 하나를 실제 이미지 하나와 직접 짝지어 비교하지 않는다는 뜻이다 [41:15]
22. 가우시안 가정은 FID의 핵심 한계다
- 실제 이미지 분포와 생성 이미지 분포는 일반적으로 가우시안이 아니다 [41:40]
- 이 때문에 FID 공식은 데이터 현실을 100% 반영하지 못한다 [41:55]
- FID 공식은 Wasserstein distance에서 온 형태다 [42:02]
- 두 분포가 가우시안일 때의 비교식이므로, 비가우시안 이미지 분포에서는 metric validity에 구조적 제약이 생긴다 [42:17]
23. Prompt adherence는 CLIP score와 preference 기반 P-score로 보완된다
- CLIP은 텍스트와 이미지를 각각 encoder에 통과시킨다 [43:05]
- contrastive loss를 통해 유사한 텍스트-이미지 쌍의 score를 높이고 다른 쌍의 score를 낮추는 방식으로 alignment를 학습한다 [43:20]
- CLIP score는 생성에 사용한 input text와 generated image를 함께 넣어 두 요소가 얼마나 잘 맞는지 수치화한다 [43:42]
24. Reference-based 평가는 VAE 재구성과 이미지 편집처럼 기준 출력이 있는 경우에 필요하다
- 평가 대상은 image generation model만이 아니다 [45:35]
- VAE처럼 입력을 재구성하는 구성요소에서는 원본 입력이라는 명확한 reference가 존재한다 [45:50]
- VAE의 proxy task는 original input reconstruction이므로 output과 target output을 직접 비교할 수 있다 [46:08]
- 이런 경우 reference-free가 아니라 reference-based metric이 필요하다 [46:23]
25. 픽셀 단위 MSE와 정렬 민감도
- MSE는 원본 이미지와 생성 이미지의 같은 위치 픽셀 사이 거리를 모든 픽셀에 대해 계산한다 [48:08]
- 복원 품질을 가장 직접적인 픽셀 차이로 측정하는 방식이다 [48:23]
- 완벽에 가까운 재구성이라도 몇 픽셀 오른쪽으로 밀리면 대응 픽셀이 달라져 MSE가 크게 악화된다 [48:51]
- 위치 정렬이 평가 결과를 지배하는 리스크가 생긴다 [49:06]
26. PSNR의 정규화와 로그 스케일의 의미
- PSNR은 MSE를 가능한 최대 값 기준으로 정규화해 픽셀 스케일 차이를 줄인다 [49:40]
- 복원 오차를 비교 가능한 맥락 안에 놓는 것이 PSNR의 역할이다 [49:55]
- 로그 변환은 어두운 방에서 전구 하나가 켜질 때와 이미 밝은 방에서 전구 하나가 더 켜질 때의 체감 차이가 다르다는 직관과 연결된다 [50:03]
27. 구조적 유사성 평가의 세 가지 축
- 구조 기반 지표는 원본과 생성 이미지의 같은 위치 패치를 비교한다 [51:57]
- 단순 픽셀 차이가 아니라 패치 전체가 비슷한 구조를 갖는지 본다 [52:12]
- 첫 번째 축은 색 강도와 밝기다 [52:39]
- 패치 안 픽셀들의 평균을 계산해 두 이미지의 luminance 유사성을 수치화한다 [52:54]
28. Dice 계수 형태의 유사도 직관
- luminance 유사도 식은 두 패치 평균을 입력으로 받아 하나의 유사도 값을 만든다 [53:52]
- 안정성을 위해 0 근처 상황을 보완하는 상수가 포함된다 [54:07]
- 식의 핵심 형태는 2ab / (a² + b²)다 [54:25]
- a와 b가 양수일 때 이 값은 0과 1 사이에 놓이는 유사도 계수로 읽힌다 [54:40]
29. 상대적 차이를 반영하는 예시와 SSIM 조합
- a=10, b=20이면 차이가 10이라도 Dice 유사도는 약 0.8 수준이다 [57:06]
- 낮은 값 구간에서는 같은 절대 차이가 더 큰 불일치로 작용한다 [57:21]
- a=100, b=110이면 차이는 여전히 10이지만 유사도는 약 0.995에 가까워진다 [57:35]
- 높은 값 구간에서는 같은 절대 차이가 상대적으로 작게 취급된다 [57:50]
30. SSIM의 구조 유사도 계산과 한계
- SSIM은 모든 이미지 패치에서 구조 유사도 점수를 계산한 뒤 평균을 낸다 [1:00:15]
- 결과값은 -1에서 1 사이이며, 1에 가까울수록 구조적으로 더 비슷한 이미지에 해당한다 [1:00:30]
- SSIM은 MSE나 PSNR보다 픽셀 단위 차이에 덜 의존한다 [1:00:50]
- 패치 범위를 넘어서는 위치 이동이 있으면 여전히 점수가 흔들리는 한계를 가진다 [1:01:05]
31. LPIPS의 표현 공간 비교와 인간 지각 정렬
- LPIPS는 원본과 재구성 이미지를 픽셀 공간에서 직접 비교하지 않는다 [1:01:31]
- 각각을 사전학습 인코더에 통과시켜 얻은 표현을 비교한다 [1:01:46]
- 인코더의 특정 layer 표현 사이의 거리를 계산하면 픽셀 정렬 여부보다 사람이 보기에 얼마나 비슷한지에 가까운 정보를 얻는다 [1:02:03]
32. LPIPS의 인코더 선택과 배치 집계
- LPIPS에서 VGG나 AlexNet 같은 preset 인코더를 주로 쓰는 이유는 layer별 계수 W가 사용하는 인코더에 종속되기 때문이다 [1:03:16]
- 공식의 거리 항은 원본 이미지와 재구성 이미지의 feature map 차이를 포함한다 [1:03:50]
- 이 차이에 layer별 계수 W를 element-wise로 곱해 지각적 차이를 계산한다 [1:04:05]
33. 수학적 지표에서 멀티모달 평가 모델로 전환한다
- MSE, PSNR, SSIM, LPIPS는 서로 다른 수준에서 동작하는 수학적 지표다 [1:05:00]
- 평가 결과를 직관적으로 해석하려면 별도의 설명 경로가 필요하다 [1:05:15]
- 기존 transformer는 텍스트를 텍스트로 바꾸고, DiT는 latent noise와 조건에서 이미지를 생성한다 [1:05:48]
- MMDiT는 텍스트 guidance를 포함한 이미지 생성을 다룬다 [1:06:03]
34. 이미지·텍스트 토큰과 cross-attention 기반 설계를 보여준다
- 이미지와 텍스트는 모두 토큰으로 변환될 수 있다 [1:07:07]
- 결국 임베딩을 받아 해석 가능한 텍스트로 바꾸는 아키텍처가 핵심 문제가 된다 [1:07:22]
- 한 가지 자연스러운 선택은 텍스트 기반 transformer의 cross-attention을 활용하는 것이다 [1:07:35]
- 이 방식에서는 텍스트 토큰이 이미지 임베딩의 key와 value에 attend한다 [1:07:50]
35. Decoder-only 입력 통합이 최신 멀티모달 LLM 흐름이 된다
- Cross-attention 기반 설계는 최신 decoder-only 대형 언어 모델의 성과를 그대로 활용하기 어렵다 [1:09:07]
- 잘 작동하도록 튜닝된 기존 모델에 cross-attention을 다시 설계해야 하는 부담이 생긴다 [1:09:22]
- 다른 흐름은 이미지 토큰과 텍스트 토큰을 모두 decoder-only 모델의 입력으로 직접 넣는 방식이다 [1:09:42]
- 이 방식은 멀티모달 입력을 하나의 시퀀스로 처리하는 최신 흐름과 연결된다 [1:09:57]
36. 이미지 속 텍스트와 평가 근거의 필요성이 커진다
- 생성 모델은 다양한 입력에서 작동해야 하며, 간판처럼 이미지 안에 텍스트가 들어가는 경우 문자가 읽을 수 있어야 한다 [1:12:09]
- 이미지 안의 텍스트 품질은 생성 결과의 평가에서 중요한 요소가 된다 [1:12:24]
- 이미지 평가 모델은 OCR처럼 문자 인식 능력을 갖춰야 한다 [1:12:29]
- 단순 점수만 내는 블랙박스보다 어떤 근거로 등급이 나왔는지가 중요하다 [1:12:44]
37. TIFA 방식은 원자적 질문 분해로 디버깅을 돕는다
- 전통적 지표는 CLIP score 같은 숫자를 제공해도 무엇을 고쳐야 하는지 바로 알려주기 어렵다 [1:13:20]
- 특정 프롬프트와 생성 이미지에서 실패 원인을 찾으려면 더 세분화된 평가가 필요하다 [1:13:35]
- TIFA는 프롬프트가 이미지에서 만족해야 할 속성을 원자적 속성으로 나눈다 [1:14:02]
- few-shot 예시를 통해 yes/no 형태의 단순 질문들을 만든다 [1:14:17]
38. 프롬프트별 rubric 생성에는 비용과 가중치 문제가 있다
- 프롬프트마다 별도 grading rubric이 필요하다 [1:15:47]
- 데이터셋의 각 입력마다 평가 기준을 만드는 과정은 bespoke하고 비용이 크며 오류 가능성도 생긴다 [1:16:02]
- 여러 질문이 프롬프트의 다양한 측면을 검사하더라도 각 claim의 가중치가 실제 중요도와 일치하지 않을 수 있다 [1:16:23]
39. CLIP score는 미세한 의미 차이에 약하다
- CLIP score는 생성 이미지의 의미가 프롬프트와 보존됐는지 어느 정도 보여준다 [1:17:34]
- 하지만 프롬프트 변형이 만드는 미세한 의미 차이를 벡터 내적만으로 충분히 담기 어렵다 [1:17:49]
- “귀여운 곰이 책을 읽는” 예시에서 book과 teddy bear의 위치나 역할을 바꾸면 직관적으로 완전히 다른 이미지가 된다 [1:18:08]
- 이런 큰 의미 차이에도 CLIP score는 크게 변하지 않을 수 있다 [1:18:23]
40. VQA score는 yes 확률로 프롬프트 일치를 평가한다
- CLIP은 전체 문장의 임베딩을 사용하지만, 다른 접근은 이미지와 문장을 같은 입력 구조에 넣는다 [1:19:40]
- 둘이 맞는지에 대한 next-token 확률을 점수로 사용할 수 있다 [1:19:55]
- VQA score는 이미지 뒤에 “이 그림이 프롬프트 내용을 보여주는가”라는 고정 템플릿을 붙인다 [1:20:28]
- 다음 토큰 분포에서 yes 토큰의 확률을 평가 점수로 삼는다 [1:20:43]
41. Next-token probability 방식은 접근성과 비용의 한계가 있다
- VQA score 방식은 next-token probability 분포 접근이 필요하다 [1:22:28]
- 최신 closed-source 모델들은 이 정보를 공개하지 않는 경우가 많고, distillation 관점에서도 민감한 정보다 [1:22:43]
- 질문마다 별도 멀티모달 모델 호출이 필요해 비용이 크다 [1:23:01]
- 병렬 실행으로 지연을 줄일 수 있어도 분해된 차원 수가 늘수록 전체 비용은 함께 증가한다 [1:23:16]
42. 프롬프트 중심 평가에서 개념 중심 평가로 전환한다
- 좋은 결과를 프롬프트별로 직접 지정하기보다, 좋은 결과의 개념을 일반적인 기준으로 정의하는 방식이 더 매력적이다 [1:24:01]
- MLM의 추론 능력을 활용해 일반 기준을 최종 점수로 연결할 수 있다 [1:24:16]
- VIE Score는 프롬프트, 생성 이미지, 루브릭을 함께 입력으로 둔다 [1:24:41]
- 의미적 일관성과 지각적 품질이라는 두 축에 대해 점수화하는 방식을 형식화한다 [1:24:56]
43. MLM-as-a-judge는 구조화 출력으로 인간 판단에 맞춘다
- 평가 입력에는 이미지와 프롬프트가 들어간다 [1:26:36]
- 각 평가 차원별로 만든 가이드라인을 기준으로 MLM-as-a-judge가 정해진 형식의 결정을 출력한다 [1:26:51]
- JSON 같은 구조화 형식은 점수, 근거, 추가 필드를 분리해 파싱할 수 있다 [1:27:03]
- 구조화 출력은 평가 결과를 후처리하거나 자동 분석하기 쉽게 만든다 [1:27:18]
44. 점별 평가, 쌍대 비교, 랭킹은 용도가 다르다
- 점별 평가는 하나의 프롬프트와 하나의 이미지를 놓고 결과가 좋은지 판단한다 [1:29:20]
- 단일 출력의 품질을 빠르게 파악하고 실패 모드를 찾는 데 적합하다 [1:29:35]
- 점별 평가의 근거 출력은 이미지 생성 모델 자체를 개선할지 판단하는 단서가 된다 [1:29:55]
- 또는 judge의 보정 기준을 다시 조정할지 판단하는 디버깅 단서가 된다 [1:30:10]
45. 태스크별 루브릭과 근거 우선 출력이 필요하다
- 실제 사용 사례에서는 VIE Score의 두 축만으로 부족할 수 있다 [1:31:28]
- 특정 목적에 맞는 별도 기준을 원자적이고 분리된 메트릭으로 추가해야 한다 [1:31:43]
- 평가 기준은 일반 품질 기준과 태스크 특화 기준을 함께 포함해야 한다 [1:31:46]
- 관심 대상이 섞이지 않도록 각 기준을 독립적으로 설계하는 편이 judge의 해석 가능성을 높인다 [1:32:01]
46. 결정성, 위치 편향, 인간 정렬을 점검해야 한다
- 일반 챗봇에서는 품질 향상을 위해 temperature가 0이 아닌 경우가 많다 [1:33:03]
- 입력과 루브릭에 근거한 정밀한 판단 작업에서는 창의성보다 일관성이 더 중요하다 [1:33:18]
- 평가 judge는 반복 실행마다 같은 조건에서 같은 결과를 내야 한다 [1:33:32]
- temperature를 0으로 두는 결정적 설정이 실무적으로 적합하다 [1:33:47]
47. 이미지 생성 벤치마크와 GenEval은 객체·속성 반영을 검증한다
- 이미지 생성 벤치마크는 프롬프트에 포함된 객체와 핵심 속성이 생성 이미지에 실제로 반영되는지를 다룬다 [1:34:22]
- 평가 관심 영역을 여러 축으로 나눠 모델의 구체적 실패를 확인한다 [1:34:37]
- GenEval은 난이도가 증가하는 여섯 가지 과제를 통해 모델을 평가한다 [1:34:59]
- 객체 존재, 객체 수, 색상, 상대적 위치, 색상 속성 귀속 같은 요소를 검증한다 [1:35:14]
48. DPGBench는 논리 그래프 기반으로 세부 조건을 평가한다
- 긴 텍스트 프롬프트는 속성, 관계, 공간 위치를 중심으로 예/아니오 질문들로 분해된다 [1:36:00]
- 세부 조건이 실제 이미지에 정확히 렌더링됐는지 확인하는 구조가 된다 [1:36:15]
- DPGBench는 분해된 조건들을 논리 그래프로 묶는다 [1:36:28]
- 특정 속성을 판단하기 전에 그 속성의 전제가 되는 객체나 공간이 먼저 존재하는지 확인한다 [1:36:43]
49. OCR 텍스트 생성과 이미지 편집도 별도 평가 대상이 된다
- 이미지 생성에서 OCR 능력은 벽면이나 장면 안의 긴 텍스트를 얼마나 정확히 생성하는지와 연결된다 [1:37:37]
- Long Text Bench는 텍스트 표시가 중요한 시나리오를 평가 대상으로 삼는다 [1:37:52]
- 생성 이미지 안의 텍스트를 VLM 또는 OCR judge가 읽어낸다 [1:38:12]
- 읽어낸 텍스트를 생성 프롬프트의 기준 텍스트와 비교해 일치 여부로 텍스트 생성 성공을 판단한다 [1:38:27]
50. 지표와 샘플 이미지 판단에는 한계가 있다
- 평가에는 정량 지표와 MLLM-as-a-judge 방식이 함께 쓰인다 [1:39:40]
- judge 성능은 튜닝 방식에 의존하며, 절대적인 성능 판단 기준은 존재하지 않는다 [1:39:55]
- 몇 장의 샘플 이미지만 보고 모델 품질을 판단하면, 어떤 이미지를 골라 보여주는지에 따라 같은 모델도 전혀 다른 분포처럼 보일 수 있다 [1:39:58]
- 최종적으로 평가는 단일 지표나 선택된 샘플에 의존하기보다, 목적에 맞는 지표·judge·벤치마크를 조합해 해석해야 한다 [100:06] [1:40:49]
🧾 결론
- 이 강의의 중심 메시지는 “좋은 생성 이미지”를 하나의 점수로 단순화하기 어렵다는 점이다. 이미지가 아름다워도 프롬프트를 따르지 않으면 실패이고, 프롬프트를 따라도 지각 품질이 낮으면 좋은 결과로 보기 어렵다.
- 인간 평가는 직관적이지만 비싸고 느리며 주관적이다. 그래서 평균 평점, pass rate, pairwise preference, ELO 같은 방식으로 노이즈를 줄이고 비교 가능성을 높이려는 설계가 필요하다.
- FID 같은 분포 기반 지표는 생성 모델 전체의 품질을 비교하는 데 유용하지만, 가우시안 가정과 실제 지각 품질 반영의 한계를 가진다. 따라서 논문이나 리더보드에서는 수치와 샘플 이미지를 함께 보되, 샘플 선택 방식도 의심해야 한다.
- Reference-based metric은 VAE 재구성이나 이미지 편집처럼 기준 이미지가 있는 경우에 적합하다. 다만 MSE와 PSNR은 픽셀 정렬에 민감하고, SSIM과 LPIPS도 각각 구조적·지각적 유사도를 보완하지만 완전한 설명력을 제공하지는 않는다.
- 멀티모달 LLM-as-a-judge는 점수뿐 아니라 근거를 제공할 수 있다는 장점이 있다. 그러나 judge 자체도 인간 판단과 정렬되어야 하며, temperature, 위치 편향, 루브릭 설계 같은 운영 변수까지 관리해야 한다.
📈 투자·시사 포인트
- AI 이미지 생성 모델 개발에서는 모델 크기나 샘플 품질만큼 평가 인프라에 대한 투자가 중요하다. 특히 미학, 프롬프트 준수성, 안전성, 다양성, 편향을 분리해 측정할 수 있는 평가 체계가 경쟁력의 일부가 된다.
- 리더보드나 벤치마크를 해석할 때는 단일 win rate나 일부 샘플 이미지에 과도하게 의존하면 안 된다. 상대 모델의 강도, 샘플 선택 방식, 평가 데이터셋의 task alignment를 함께 확인해야 한다.
- FID, CLIP score, LPIPS 같은 기존 metric은 여전히 비교 기준으로 쓰이지만, 각각의 한계가 명확하다. 실무적 의사결정에는 여러 지표와 인간 평가, 그리고 실패 사례 분석을 결합하는 방식이 더 적합하다.
- 멀티모달 judge 기반 평가는 평가 자동화의 중요한 방향이지만, 검증 없이 절대 기준으로 쓰기에는 위험하다. 인간 선호 데이터와의 정렬, 루브릭 품질, 결정적 실행 설정, 위치 편향 보정이 함께 필요하다.
- 검증 필요: 강의 transcript에는 특정 최신 모델의 실제 성능 순위나 벤치마크 수치가 제공되지 않는다. 특정 모델의 우열, 투자 가치, 상용 적용 가능성을 판단하려면 별도의 실험 결과와 공개 리더보드 데이터를 확인해야 한다.
⚠️ 불확실하거나 확인이 필요한 부분
- FID 50k 관행은 강의에서 대표적 평가 방식으로 설명되지만, 실제 비교에 사용하려면 데이터셋, 샘플 수, Inception feature 추출 방식이 기존 논문 또는 리더보드와 동일한지 확인해야 한다.
- ELO rating 예시는 상대 모델 강도를 반영하는 직관을 보여주지만, 실제 리더보드 운영에서 사용할 K 값, 무승부 처리 방식, 모델별 비교 횟수는 강의 내용만으로 확정할 수 없다.
- VQA score나 MLLM-as-a-judge 방식은 next-token probability, 구조화 출력, 루브릭 정렬에 의존하므로, 특정 closed-source 모델에서 필요한 확률값이나 일관된 판단 근거를 얻을 수 있는지는 별도 검증이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 텍스트-이미지 모델 평가를 설계할 때 미학적 품질, 프롬프트 준수성, 안전성, 다양성, 암기 방지, 편향을 별도 평가 축으로 분리한다.
- 사람 평가를 수집할 경우 5점 척도, 이진 pass rate, 쌍대 비교 중 어떤 방식이 목적과 비용에 맞는지 먼저 정한다.
- 모델 간 비교 리더보드를 만들 때 단순 win rate만 쓰지 말고, 상대 모델 강도를 반영하는 ELO류 rating 적용 가능성을 검토한다.
- FID를 사용할 때는 비교 대상 모델들이 같은 실제 이미지 분포, 같은 encoder representation, 같은 샘플 규모에서 평가되는지 확인한다.
❓ 열린 질문
- FID처럼 오래 쓰인 지표와 MLLM-as-a-judge처럼 설명 가능한 평가 방식 중, 실제 모델 개발 루프에서는 어느 쪽을 주 지표로 삼고 어느 쪽을 보조 지표로 삼아야 할까요?
- 프롬프트의 핵심 조건이 실패했을 때 단순 평균 rubric 점수보다 더 강하게 페널티를 주려면, 조건별 가중치를 어떤 방식으로 설계해야 할까요?
- 인간 평가와 자동 judge가 충돌할 때, 어느 정도의 불일치를 허용하고 언제 judge rubric을 다시 조정해야 할까요?