YouTubeStanford Online·2026년 6월 4일·0

Stanford CS336 Language Modeling from Scratch

Quick Summary

Stanford CS336 Lecture 17: Alignment Multimodality는 텍스트 중심 언어 모델을 이미지·비디오까지 다루는 멀티모달 모델로 확장할 때, 핵심 병목이 “비텍스트 정보를 어떤 토큰·임베딩으로 바꿔 transformer에 넣고 학습할 것인가”에 있음을 보여준다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

Stanford CS336 Language Modeling from Scratch 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Stanford CS336 Language Modeling from Scratch 내용을 설명하는 본문 이미지

💡 한 줄 결론

Stanford CS336 Lecture 17: Alignment - Multimodality는 텍스트 중심 언어 모델을 이미지·비디오까지 다루는 멀티모달 모델로 확장할 때, 핵심 병목이 “비텍스트 정보를 어떤 토큰·임베딩으로 바꿔 transformer에 넣고 학습할 것인가”에 있음을 보여준다.

📌 핵심 요점

  1. 멀티모달 모델의 출발점은 텍스트·이미지·오디오·비디오를 모두 transformer가 처리 가능한 의미 단위로 바꾸는 문제이며, 이미지에서는 pixel 자체가 좋은 token이 아니기 때문에 별도의 인코더나 토큰화 전략이 필요하다.
  2. CLIP은 대규모 이미지-텍스트 쌍을 이용해 이미지 인코더와 텍스트 인코더의 표현을 맞추는 contrastive 학습으로 vision-language model의 기반을 만들었고, ImageNet식 수작업 라벨 의존을 줄이는 zero-shot 가능성을 보여줬다.
  3. SigLIP은 CLIP의 큰 배치 softmax 구조를 image-text pair의 binary alignment 문제로 바꾸어 학습 효율과 병렬화 측면의 제약을 완화했으며, 이후 VLM에서 중요한 비전 인코더 계열로 이어진다.
  4. LLaVA와 Qwen-VL 계열은 CLIP·SigLIP 같은 비전 인코더, projector 또는 adapter, 강한 언어모델을 결합해 이미지와 텍스트를 같은 입력 시퀀스 안에서 처리하는 구조를 발전시켰고, OCR·비디오·다중 이미지 이해를 위해 AnyRes, 동적 해상도, 멀티모달 RoPE, 긴 컨텍스트 같은 설계를 추가했다.
  5. Chameleon처럼 이미지와 텍스트를 모두 이산 토큰으로 다루는 접근은 입력과 출력 modality를 통합하려는 omni model 방향을 보여주지만, 이미지 토큰의 고엔트로피, 학습 불안정성, OCR 같은 세밀 정보 손실 때문에 현재 실용적 멀티모달 이해에서는 연속 인코더와 transformer 결합이 여전히 중요한 선택지로 제시된다.

🧩 배경과 문제 정의

  • 언어 모델은 텍스트 입력을 텍스트 출력으로 변환하는 범용 모델로 발전했지만, 실제 세계의 정보는 텍스트·이미지·오디오·비디오가 함께 얽힌 형태로 존재한다.
  • 현대 AI 모델이 지향하는 방향은 여러 modality를 함께 입력받고, 여러 modality를 조합해 출력할 수 있는 omni model에 가깝다.
  • transformer는 token을 기본 입력·출력 단위로 사용하므로, 이미지·오디오·비디오 역시 transformer가 처리할 수 있는 discrete 또는 continuous token 표현으로 변환해야 한다.
  • 이번 강의의 핵심 문제는 비텍스트 데이터를 어떻게 transformer의 입력으로 구성할 것인가이며, 특히 이미지를 언어모델과 결합하는 vision-language model 구조를 중심으로 다룬다.
  • CLIP은 인터넷 규모의 이미지-텍스트 쌍을 contrastive learning으로 학습해 vision-language model의 기반을 마련한 대표적인 접근이다.
  • 이후 LLaVA, SigLIP, Qwen-VL, Chameleon 같은 모델들은 이미지 인코더, 어댑터, 언어모델, 동적 해상도, 비디오 위치 인코딩, 이산 이미지 토큰화 등을 통해 멀티모달 모델의 한계를 확장해 왔다.

🕒 시간순 섹션별 상세정리

1. 언어 모델에서 omni model로 확장되는 문제

  • 언어 모델은 텍스트 입력을 텍스트 출력으로 변환하는 범용 구조이며, 자연어·코드·시·DNA처럼 서로 다른 문자열도 같은 틀에서 처리할 수 있다 [00:43]
  • 하지만 실제 세계의 정보는 텍스트뿐 아니라 이미지·오디오·비디오로도 존재하므로, 텍스트 전용 모델만으로는 현대 multimodal 모델의 흐름을 설명하기 어렵다 [01:00]

2. transformer에 맞는 token화가 multimodal 입력의 병목

  • transformer는 여러 modality에서도 강력한 구조지만, 기본적으로는 text token을 입력받아 token을 출력하는 방식에 맞춰 설계되어 있다 [02:04]
  • 여기서 token은 discrete text token뿐 아니라 continuous embedding도 포함하며, 각 token은 의미 있는 정보 단위를 담아야 한다 [02:32]

3. 비텍스트 데이터를 transformer에 넣고 생성하는 두 질문

  • multimodal 모델을 만들려면 이미지·비디오·오디오를 transformer 입력으로 바꾸는 문제와, 다시 해당 데이터를 출력으로 생성하는 문제를 구분해야 한다 [03:59]
  • 이번 강의는 생성보다 입력 변환에 초점을 두며, 이미지가 transformer 내부에서 처리 가능한 표현으로 바뀌는 과정이 핵심이다 [04:13]

4. CLIP이 등장한 배경과 이미지-텍스트 쌍 활용

  • GPT 계열 언어 모델은 foundation model 시대로 진입했지만, vision 분야는 여전히 ImageNet 라벨 데이터와 ResNet 기반 분류 학습에 크게 의존했다 [04:46]
  • 언어 모델이 인터넷의 방대한 noisy text를 학습 자원으로 활용했듯, 이미지 분야에서는 이미지와 caption이 짝지어진 대규모 데이터가 핵심 자원이 된다 [05:21]

5. CLIP의 contrastive objective와 학습 구조

  • 한 batch에 수만 개의 이미지-텍스트 쌍이 들어오면, image encoder는 이미지를 vector로, text encoder는 대응 caption을 embedding으로 변환한다 [06:02]
  • CLIP objective의 핵심은 올바른 이미지-텍스트 쌍의 dot product가 같은 batch 안의 다른 조합보다 커지도록 학습하는 것이다 [06:46]

6. 데이터 규모, 이미지 전처리, vision encoder로 이어지는 설계

  • CLIP 데이터는 온라인 검색으로 image-text pair를 수집하는 방식에 가까우며, 원 논문에서는 약 4억 개 쌍을 사용했지만 데이터셋 자체는 공개하지 않았다 [08:37]
  • OpenCLIP 계열에서는 LAION-5B처럼 약 50억 개 이미지와 텍스트 설명을 담은 공개 데이터셋이 사용되었고, filtering에는 기존 CLIP도 활용되었다 [08:59]

7. 텍스트 결합과 ViT 기반 이미지 인코더

  • 이미지 증강만으로는 한 종류의 개에서 다른 종류의 개로 의미를 일반화하기 어렵고, 텍스트는 이미지의 상위 의미 표현을 제공한다 [12:07]
  • CLIP은 ResNet과 Vision Transformer를 비교했으며, Vision Transformer가 가장 좋은 성능을 보였기 때문에 일반적으로 CLIP은 ViT 버전을 가리킨다 [12:36]

8. ViT-L/14 설정과 위치 임베딩의 한계

  • CLIP 논문에서 가장 좋은 모델은 ViT-L/14였으며, 이는 large ViT와 14×14 패치 구성이 결합된 모델로 드러난다 [14:37]
  • 학습에는 RGB 3채널 이미지와 336×336 해상도가 쓰였고, 속도 부담 때문에 낮은 해상도로 먼저 학습한 뒤 후반부에 높은 해상도를 사용한 것으로 보인다 [15:04]

9. 텍스트 인코더, contrastive 학습, zero-shot 성능

  • 텍스트 인코더는 GPT-2 스타일의 표준 transformer이며, BOS와 EOS를 붙인 뒤 최상위 layer의 EOS activation을 전체 sequence 표현으로 사용한다 [16:24]
  • 학습에서는 batch 안의 모든 텍스트와 이미지를 각각 인코딩하고, 양방향 cross entropy loss로 이미지-텍스트 정렬을 학습한다 [16:57]

10. 웹 캡션 노이즈와 데이터 필터링 문제

  • 같은 dog 이미지와 유사한 dog caption이 batch에 있어도, 평균적으로 apple이나 cat 같은 다른 대상도 섞이기 때문에 contrastive 학습이 완전히 무너지지는 않는다 [19:00]
  • 웹 이미지는 주변 텍스트나 alt text와 함께 수집되지만, caption이 실제 이미지 내용을 정확히 설명하지 않는 경우가 많아 image-text pair는 매우 noisy하다 [19:23]

11. 텍스트 생성 목적과 표현 학습의 차이

  • 이미지에서 텍스트를 예측하는 대안 objective도 가능하며, bag of words 방식이나 language model 방식으로 caption을 맞추는 설정을 만들 수 있다 [20:13]
  • 더 강한 language model objective가 항상 더 효율적인 것은 아니며, ImageNet 분류 정확도 기준에서는 bag of words 기반 CLIP 방식이 더 효율적이었다 [20:41]

12. CLIP의 배치 제약과 SigLIP의 binary alignment

  • CLIP은 약 30,000개 수준의 큰 batch size가 필요하며, batch size가 1이나 10처럼 작으면 contrastive 학습 구조가 제대로 작동하기 어렵다 [22:01]
  • softmax가 전체 batch 위에서 작동하기 때문에, CLIP 학습은 일반 language model training보다 병렬로 분해하기 어렵다 [22:14]

13. SigLIP의 샘플링과 데이터 구성

  • 초기 SigLIP 설정은 복잡한 샘플링 전략 없이 같은 형태의 행렬을 사용했으며, positive·negative 균형이나 hard negative 설계는 큰 비중을 차지하지 않았다 [24:17]
  • WebLI 데이터셋은 약 10억 개 이미지-텍스트 쌍을 포함했고, OCR로 이미지 속 글자를 추출해 추가 pair를 만들며 다국어 데이터와 filtering을 함께 활용했다 [24:54]

14. SigLIP의 병렬화와 batch size 분리 효과

  • TPU v4는 단일 FLOPS 기준으로 v3보다 항상 빠르다고 보기 어렵고, 더 큰 pod와 interconnect 이점이 있어도 이 규모에서는 실제 처리 속도가 더 느릴 수 있다 [25:46]
  • SigLIP은 각 디바이스가 일부 이미지-텍스트 쌍을 보관해 로컬 loss를 계산한 뒤, 텍스트 블록을 순환시켜 off-diagonal negative까지 함께 계산한다 [26:29]

15. 이미지 인코더에서 VLM으로 넘어가는 기본 구조

  • CLIP과 SigLIP은 336×336 같은 고정 크기 이미지를 입력받아, 이미지의 의미 정보를 담은 벡터로 매핑하는 이미지 인코더다 [28:37]
  • VLM은 이 이미지 임베딩을 언어모델 내부로 주입해 만들며, 기존 image encoder와 기존 LLM을 연결하는 mid-training 또는 post-training에 가깝다 [28:56]

16. LLaVA의 등장 배경과 학습 데이터 합성

  • LLaVA는 2023년에 등장했으며, GPT-4 같은 폐쇄형 모델이 시각 추론을 수행하던 시점에 내부 구조를 확인할 수 있는 오픈 모델이라는 점이 중요했다 [29:40]
  • LLaVA는 CLIP 기반 vision encoder와 Vicuna text decoder를 사용했고, Vicuna는 공유된 ChatGPT 대화로 fine-tuning된 초기 LLaMA 계열 모델이다 [30:12]

17. LLaVA의 연결 구조와 2단계 학습 방식

  • LLaVA는 고성능 CLIP인 ViT-L/14를 사용하며, 이미지가 CLIP을 거쳐 나온 벡터를 행렬 W로 변환해 text embedding과 같은 공간에 배치한다 [32:09]
  • 텍스트는 표준 embedding으로 벡터화되고, 이미지 벡터와 텍스트 벡터가 하나의 sequence로 결합되어 일반 transformer를 통과한 뒤 출력이 생성된다 [32:47]

18. LLaVA의 시각 추론 사례와 2024년 확장 흐름

  • LLaVA 사례에서는 미니밴 뒤에서 다림질하는 이미지가 입력되고, “무엇이 특이한가”라는 질문에 미니밴 뒤에서 다림질하지 않는다는 답을 생성한다 [34:38]
  • 사용자 prompt가 특이함을 강하게 유도하지 않아도 LLaVA는 비정상적인 상황을 포착했으며, 당시 다른 모델들은 이런 시각 추론을 충분히 수행하지 못했다 [34:58]

19. 멀티모달 입력 확장과 구성요소 업그레이드

  • 모델은 단일 이미지뿐 아니라 여러 이미지와 비디오도 처리하며, 비디오는 프레임 샘플링으로 얻은 이미지 sequence로 다룬다 [36:02]
  • 비전 인코더는 SigLIP 계열로, 텍스트 디코더는 Qwen 2로 바뀌며, 비전 출력과 언어모델 입력을 잇는 어댑터도 선형 투영에서 2-layer MLP로 바뀐다 [36:24]

20. OCR을 위한 AnyRes와 고해상도 보존

  • OCR에서는 문자 단위의 미세한 차이가 중요하므로, 해상도가 낮아지면 J와 I처럼 비슷한 글자를 구분하지 못해 문서 이해가 흔들릴 수 있다 [37:10]
  • CLIP의 336×336 리사이즈·크롭 방식은 문서 전체를 읽기에 부족하기 때문에, 이미지를 여러 조각으로 나눠 각 조각을 비전 인코더 입력 해상도에 맞추는 AnyRes가 필요하다 [37:25]

21. 단일 이미지·다중 이미지·비디오별 토큰 예산 조정

  • 실제 이미지 처리에서는 문서 전체를 보는 다운샘플 경로와 세부 crop 경로를 함께 사용하며, crop이 너무 많아지면 interpolation으로 패치 수를 줄인다 [38:57]
  • 단일 이미지는 전체 다운샘플 이미지와 최대 9개 crop으로 세부 정보를 보존하지만, 여러 이미지는 기본 해상도로만 처리해 이미지당 토큰 부담을 낮춘다 [39:35]

22. 고품질·목표지향 데이터와 3단계 학습

  • 데이터 철학은 고품질과 양을 모두 추구하지만, 실제 구성은 시각 질의응답이나 표 질의처럼 과제 중심의 타깃 데이터에 가깝다 [41:12]
  • 모델은 특정 작업을 잘 수행하도록 post-training 영역의 데이터를 많이 사용하며, 주석 비용이 부족하면 GPT-4 계열 모델을 증류해 성능을 확보한다 [41:42]

23. 모달리티 간 전이와 task-specific 데이터의 효과

  • 단일 이미지의 도표·차트 데이터만 있어도 테스트 시점에는 표 이미지와 차트 이미지를 함께 넣고 두 이미지에 대한 대화를 이어갈 수 있다 [43:30]
  • 학습에서는 단일 이미지 OCR과 다중 이미지 관계 추론이 따로 존재하지만, 테스트에서는 여러 스크린샷을 보고 GUI 에이전트용 설명을 생성하는 조합형 작업으로 일반화된다 [44:09]

24. LLaVA 계열의 공개성과 Qwen-VL 초기 구조

  • LLaVA 계열은 비전 인코더·프로젝터·언어모델이라는 표준 VLM 템플릿을 따르며, 데이터 큐레이션과 합성 task-specific 데이터에 많은 비중을 둔다 [45:29]
  • LLaVA 계열은 모델 가중치뿐 아니라 데이터까지 공개해 재현과 분석이 가능한 드문 사례에 속한다 [45:49]

25. Qwen-VL의 학습 단계와 초기 멀티모달 기능

  • 고품질 태스크별 데이터에는 VQA, 차트 질의응답 같은 데이터셋이 포함되고, 이 단계에서는 모든 파라미터를 학습해 시각 태스크 적응력을 높인다 [48:00]
  • instruction tuning 단계에서는 비전 인코더를 고정하고 어댑터와 언어모델을 학습해, 시각 입력을 언어 지시 수행 능력과 연결한다 [48:15]

26. Qwen2의 동적 해상도와 비디오 토큰 처리

  • Qwen2는 더 큰 비전 인코더를 쓰고 동적 해상도를 도입하며, 이미지 크기와 비디오 입력을 다루려면 입력별 토큰 수 조절이 중요해진다 [49:20]
  • 큰 이미지는 약 11,000개 토큰으로 매핑될 수 있지만 작은 수식 이미지는 8개 토큰만 쓸 수 있어, 시각 정보량에 맞춰 계산량이 달라진다 [49:53]

27. Qwen2의 멀티모달 RoPE와 기본 학습 구조

  • Qwen2는 멀티모달 RoPE를 도입해 1차원 토큰 거리 중심의 RoPE를 높이·너비·시간이라는 3차원 위치 구조로 확장한다 [50:59]
  • 각 이미지 또는 비디오 패치는 높이, 너비, 시간 좌표로 정의되고, 각 차원별 RoPE를 계산한 뒤 이어 붙여 멀티모달 위치 표현을 만든다 [51:37]

28. Qwen3의 장문 컨텍스트와 RoPE 주파수 개선

  • Qwen3-VL은 Qwen3 계열 dense와 MoE 모델을 바탕으로 하며, 강한 기본 언어모델 성능이 최종 멀티모달 모델 품질을 크게 끌어올린다 [52:50]
  • 컨텍스트 길이는 최대 256K까지 확장되고, 긴 비디오를 처리하려면 긴 시각 토큰 sequence를 버티는 장문 컨텍스트 이해가 중요해진다 [53:35]

29. 명시적 비디오 타임스탬프와 길이 불균형 보정

  • 이전에는 비디오 프레임의 시간 정보가 위치 인코딩 안에 암묵적으로 들어갔지만, Qwen3는 “0 seconds” 같은 시간 토큰을 직접 넣어 특정 시점의 사건을 참조하기 쉽게 만든다 [54:58]
  • 명시적 시간 토큰은 “2초 뒤에 무엇이 일어났는가” 같은 질의에 직접 대응할 수 있어, 긴 비디오 이해에서 시간 지시와 사건 위치 연결을 강화한다 [55:38]

30. DeepStack 어댑터와 복잡해진 Qwen3 학습 파이프라인

  • 어댑터는 비전 인코더와 언어모델을 연결하는 핵심 부품이며, LLaVA의 linear projection에서 MLP, cross-attention을 거쳐 Qwen3의 DeepStack 방식으로 정교해진다 [56:45]
  • DeepStack은 비전 인코더의 여러 층 시각 임베딩을 언어모델 residual stream에 직접 더해, 비전 인코더를 언어모델 내부 흐름과 깊게 결합한다 [57:13]

31. 멀티모달 모델의 출력은 텍스트에 묶이고, 학습은 토큰별 감독에 의존한다

  • 기존 멀티모달 모델은 입력 쪽에서 이미지나 비디오를 받지만, 출력 단계에서는 비디오나 이미지를 직접 생성하지 않고 항상 텍스트를 생성한다 [1:00:00]
  • RL을 제외한 대부분의 단계에서는 모든 토큰이 직접 감독되며, 설명 품질을 별도 판정하는 LM-as-a-judge보다 데이터셋의 정답 토큰이 학습 신호가 된다 [1:00:20]

32. 멀티모달 학습은 데이터 로딩과 토큰 가중치에서 시스템 부담이 커진다

  • 멀티모달 모델 학습은 시스템 관점에서 순수 언어 모델보다 쉽지 않으며, 특히 비디오 데이터는 크기가 크고 로딩 자체가 부담이 된다 [1:01:16]
  • 언어 모델에서는 텍스트 데이터 로딩 비용이 작아 핵심 병목으로 덜 다뤄지지만, 비디오·이미지 학습에서는 데이터 로딩을 계산과 비동기로 맞추는 설계가 중요하다 [1:01:32]

33. 어댑터 정렬은 동결된 언어 모델과 정해진 토큰 예산을 전제로 한다

  • 정렬 단계는 이미 사전학습된 언어 모델이 있어야 의미가 있으며, 언어 모델 자체는 동결한 상태에서 비전 인코더와 언어 모델을 잇는 어댑터만 학습된다 [1:03:22]
  • 학습 절차는 적응형 임계값보다 정해진 토큰 예산을 기반으로 진행되며, 예시로 670억 토큰 규모를 정한 뒤 그 예산만큼 학습하는 방식이 나온다 [1:03:48]

34. Qwen3 계열의 성능 향상은 구조 혁신보다 스케일링과 데이터 큐레이션에 가깝다

  • Qwen3는 마지막 비전-언어 모델 사례로 소개되며 최신 수준의 성능을 보이지만, 후속 Qwen 모델들의 데이터 구성 세부 사항은 공개 정보가 많지 않다 [1:06:14]
  • 더 구체적인 데이터와 학습 구성은 LLaVA 논문이나 AI2의 Molmo 논문에서 확인할 수 있으며, Qwen 계열의 기본 접근은 이전 세대와 크게 다르지 않다 [1:06:24]

35. Chameleon은 이미지와 텍스트를 같은 이산 토큰 공간에 넣어 출력 제약을 바꾼다

  • 기존 VLM은 이미지를 벡터로 인코딩해 언어 모델에 주입하므로, 언어 모델 구조상 텍스트는 생성할 수 있어도 이미지는 직접 생성하기 어렵다 [1:07:26]
  • 이미지 생성을 결합하는 방법으로 VLM에 diffusion head를 추가할 수 있지만, Chameleon은 모든 입력과 출력을 이산 토큰으로 매핑하는 별도의 접근을 택한다 [1:07:51]

36. VQ-VAE는 이미지를 코드북 토큰으로 바꾸고, 이후 학습은 일반 언어 모델 학습처럼 단순해진다

  • 이미지를 이산 토큰으로 바꾸기 위해 VQ-VAE 계열 아이디어가 사용되며, 이미지는 연속 벡터로 매핑된 뒤 가장 가까운 코드북 항목으로 반올림된다 [1:09:18]
  • 코드북은 예시로 8,000개 코드처럼 구성되며, 각 코드는 이미지 패치에 대응하는 원형 벡터로 작동하고 인코더는 가장 가까운 코드를 표현으로 선택한다 [1:10:01]

37. 이산 이미지 토큰의 학습 불안정성과 정보 손실

  • 텍스트와 이미지는 같은 토큰 공간을 공유하더라도 동작 방식이 다르며, 텍스트 토큰은 낮은 엔트로피를 갖지만 이미지 토큰은 색상 같은 고엔트로피 정보를 포함한다 [1:12:17]
  • 텍스트·이미지 토큰을 함께 학습하면 파라미터 노름이 커지고 loss 불안정성이 생기며, QK norm과 Z loss regularization이 노름 성장을 제어하는 완화책으로 쓰인다 [1:12:52]

38. 프런티어 멀티모달 모델의 핵심 설계 난제

  • 프런티어 모델은 native multimodal 또는 omnimodal 능력을 기대받지만, Gemini나 GPT 계열처럼 여러 modality를 처리하는 모델도 내부 구축 방식은 공개되지 않는다 [1:14:49]
  • 정보 손실을 줄이려면 연속 인코더가 필요하고, 생성에는 diffusion이 결합될 가능성이 있지만 이는 공개된 세부 구조가 아니라 현재 가능한 설계에 대한 추정이다 [1:15:14]

39. 모달리티 가중치와 현재 실용적 조합

  • 멀티모달 학습에서는 각 modality를 적절히 가중해야 하며, 비디오는 텍스트보다 정보 밀도가 낮기 때문에 비디오 데이터가 텍스트 신호를 압도하지 않도록 조정해야 한다 [1:16:20]
  • 현재로서는 연속 인코더가 유리한 선택지로 보이며, CLIP이 오래된 접근임에도 이미지 의미를 포착하는 기본 방식으로 여전히 활용된다 [1:16:42]

🧾 결론

  • 이 강의의 중심 메시지는 멀티모달 모델이 단순히 언어모델에 이미지를 붙이는 문제가 아니라, modality별 정보 밀도와 해상도, 토큰 수, 학습 손실 가중치, 데이터 로딩까지 함께 설계해야 하는 시스템 문제라는 점이다.
  • CLIP에서 SigLIP, LLaVA, Qwen-VL, Qwen3-VL로 이어지는 흐름은 하나의 극적인 구조 혁신보다 더 강한 비전 인코더, 더 강한 언어모델, 더 긴 컨텍스트, 더 정교한 데이터 큐레이션과 학습 파이프라인의 누적 개선에 가깝다.
  • 이미지 이해에서는 고수준 의미를 잡는 CLIP류 표현이 유용하지만, OCR·문서 이해·비디오 시간 추론·이미지 생성처럼 세밀한 정보가 필요한 작업에서는 해상도 보존, 위치 표현, 토큰 예산 관리, diffusion 같은 별도 생성 메커니즘이 중요해진다.
  • 최종적인 omni model은 텍스트와 이미지, 비디오, 오디오를 자연스럽게 입력·출력하는 방향을 목표로 하지만, 강의 범위에서 확인되는 공개 모델들은 대부분 입력은 멀티모달화해도 출력은 여전히 텍스트에 묶인 경우가 많다.

📈 투자·시사 포인트

  • 멀티모달 AI 경쟁력은 모델 크기만이 아니라 이미지·비디오 데이터 처리 파이프라인, 고품질 task-specific 데이터, OCR·문서·비디오용 평가셋, 긴 컨텍스트 학습 인프라까지 포함한 전체 시스템 역량에 좌우될 가능성이 크다.
  • CLIP·SigLIP 계열 인코더, 동적 해상도 처리, 멀티모달 위치 인코딩, adapter 설계처럼 “언어모델과 비전 표현을 어떻게 연결하는가”는 VLM 품질을 가르는 핵심 기술 축으로 해석할 수 있다.
  • 비디오와 고해상도 문서 이해는 토큰 수와 데이터 로딩 비용을 크게 늘리므로, 멀티모달 모델 확산은 GPU·TPU 계산 자원뿐 아니라 스토리지, 데이터 파이프라인, inference 최적화 수요와도 연결된다.
  • 공개 모델 관점에서는 LLaVA처럼 모델 가중치와 데이터가 함께 공개되는 사례가 재현성과 생태계 확장에 유리하며, 폐쇄형 frontier model은 실제 내부 구조가 공개되지 않기 때문에 성능 비교만으로 기술 경로를 단정하기 어렵다.
  • 검증 필요: 특정 기업이나 모델에 대한 투자 판단은 이 강의만으로 확정할 수 없으며, 실제 매출화 경로, 독점 데이터 보유 여부, inference 비용, 모델 라이선스, 벤치마크의 task 적합성을 별도로 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

  • CLIP 원 논문에서 사용된 약 4억 개 이미지-텍스트 쌍은 데이터셋 자체가 공개되지 않았으므로, 실제 수집·필터링 방식과 데이터 구성은 강의 설명만으로는 완전히 검증하기 어렵다.
  • CLIP ViT-L/14 학습에서 낮은 해상도로 먼저 학습한 뒤 후반부에 336×336 해상도를 사용했다는 부분은 “그런 것으로 보인다”에 가까운 설명이므로, 정확한 학습 스케줄은 원 논문 또는 부록 확인이 필요하다.
  • SigLIP의 compute 비교, WebLI 데이터 구성, Qwen2·Qwen3의 토큰 수·컨텍스트 길이·학습 단계 같은 수치는 강의 내 설명 기준이며, 모델 버전과 논문·기술보고서에 따라 세부가 달라질 수 있다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • CLIP, SigLIP, LLaVA, LLaVA OneVision, Qwen-VL, Qwen2-VL, Qwen3-VL, Chameleon의 원 논문 또는 공식 기술보고서를 연결해 강의 내용과 수치를 대조한다.
  • CLIP의 contrastive softmax loss와 SigLIP의 binary sigmoid loss를 비교하는 간단한 도식 또는 표를 추가해 배치 크기 제약 차이를 정리한다.
  • 멀티모달 입력 방식별로 “고정 해상도 CLIP 인코더, AnyRes crop, 동적 해상도, VQ-VAE 이산 토큰화”를 비교하는 요약 표를 만든다.
  • LLaVA 계열의 2단계·3단계 학습, Qwen 계열의 pre-training/post-training 파이프라인을 별도 타임라인으로 정리한다.

❓ 열린 질문

  • 멀티모달 모델에서 이미지·비디오·오디오를 모두 같은 토큰 공간에 넣는 방식이 장기적으로 더 유리한가, 아니면 이해용 연속 인코더와 생성용 diffusion을 분리하는 방식이 더 실용적인가?
  • CLIP류의 고수준 의미 표현은 분류와 검색에는 강하지만, OCR·문서 이해·작은 객체 인식처럼 세밀한 정보가 필요한 작업에서는 어디까지 확장될 수 있는가?
  • 비디오처럼 토큰 수가 큰 모달리티가 학습 손실을 지배하지 않게 하려면 어떤 정규화·샘플링·데이터 mixture 전략이 가장 안정적인가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.