It''s about time we learn Transformers..
Quick Summary
Transformers는 단순히 다음 문자를 찍는 장치가 아니라, 토큰의 의미·순서·관계·여러 관점의 어텐션을 결합해 다음 토큰을 예측하도록 학습되는 GPT의 핵심 구조다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Transformers는 단순히 다음 문자를 찍는 장치가 아니라, 토큰의 의미·순서·관계·여러 관점의 어텐션을 결합해 다음 토큰을 예측하도록 학습되는 GPT의 핵심 구조다.
📌 핵심 요점
- 무작위로 문자나 토큰을 고르는 방식만으로는 의미 있는 문장을 만들기 어렵고, GPT는 현재 토큰과 문맥을 바탕으로 다음 토큰을 예측하는 구조를 사용한다.
- 토큰 ID만으로는 사용 맥락을 담기 부족하므로, 각 토큰을 다차원 벡터로 바꾸는 토큰 임베딩이 필요하다.
- 어텐션은 토큰들이 서로 얼마나 관련 있는지 계산하는 장치이며, Q는 찾는 역할, K는 비교 기준, V는 실제 전달할 값을 맡는다.
- 위치 임베딩은 같은 단어라도 순서가 바뀌면 의미가 달라지는 문제를 다루고, 멀티헤드 어텐션은 문법·짧은 관계·긴 관계 같은 여러 관점에서 시퀀스를 보게 한다.
- GPT에 가까운 구조가 되려면 어텐션 외에도 feedforward network, layer normalization, residual connection, 반복되는 block 구조, 그리고 대규모 학습 과정이 함께 필요하다.
🧩 배경과 문제 정의
- LLM 발전 속도가 빨라지면서 GPT의 내부 구조를 이해할 필요가 커졌고, 영상은 GPT가 단순한 “문자 생성기”가 아니라 여러 구성요소가 결합된 구조임을 단계적으로 설명한다.
- OpenAI, Anthropic, DeepSeek, Minimax 같은 연구소들은 각자 조정한 GPT 계열 모델을 사용하며, 이는 모델 구조를 이해하는 일이 현대 AI 애플리케이션을 이해하는 기초가 됨을 보여준다.
- 에이전트형 애플리케이션은 더 빠른 토큰 생성, 더 긴 컨텍스트, 더 나은 도구 호출, 더 지능적인 추론을 요구하고, 이런 요구가 GPT 구조 개선의 압력으로 작용한다.
- 단순히 무작위로 토큰을 선택하는 방식만으로는 그럴듯한 언어를 만들기 어렵기 때문에, 학습 데이터 분할, 토큰 임베딩, 토큰 간 관계 계산, 순서 정보, 멀티헤드 어텐션 같은 장치가 필요하다.
- 영상의 문제의식은 “GPT는 어떻게 문자를 숫자 표현으로 바꾸고, 토큰 간 관계와 순서를 학습하며, 더 안정적으로 깊은 구조를 쌓는가”에 맞춰져 있다.
🕒 시간순 섹션별 상세정리
- GPT가 필요한 이유와 무작위 생성의 한계
- LLM의 핵심에는 GPT가 있고, 프런티어 연구소들은 애플리케이션 계층에서 요구되는 속도, 컨텍스트 길이, 도구 호출 능력에 맞추기 위해 각자 조정한 GPT 버전을 사용한다. [00:41]
- 갈턴 보드처럼 무작위로 보이는 과정도 가운데에 값이 몰리는 패턴을 만들 수 있지만, 알파벳·숫자·특수문자를 그대로 무작위 배치하면 의미 있는 문장이 아니라 중간 문자에 치우친 문자열이 나온다. [00:56]
- 학습 데이터 분할과 토큰 임베딩의 필요성
- 모델을 학습하려면 전체 데이터를 한 번에 넣는 것이 아니라 작은 조각으로 나누어야 하며, 예시에서는 4개 배치가 병렬로 학습되고 각 배치는 8개 토큰 블록을 가진다. [01:42]
- 4개 배치와 8개 블록 구조는 총 32개 토큰을 학습 데이터에서 샘플링하는 방식이며, 큰 데이터셋을 작고 처리 가능한 단위로 병렬 학습하는 출발점이 된다. [02:02]
- 임베딩 테이블과 입력 배치 구조
- ASCII 문자 집합을 기준으로 128개 라벨 가능성이 있고, 각 토큰에 32차원 표현을 부여하면 128×32 크기의 토큰 임베딩 테이블이 만들어진다. [03:43]
- 앞서 나눈 4개 배치와 각 8개 토큰 블록은 이 임베딩 테이블에서 값을 샘플링하며, 결과적으로 각 배치는 8×32 벡터 형태의 입력을 갖는다. [04:03]
- Q·K·V 어텐션과 토큰 관계 계산
- 어텐션은 토큰들이 서로 어떤 관련을 갖는지 계산하는 구조이며, 토큰 내부 표현을 담는 임베딩 테이블과는 별도로 작동한다. [05:01]
- 하나의 테이블만으로는 검색하는 쪽과 검색 대상이 되는 쪽을 분리하기 어렵기 때문에, Q는 찾는 역할, K는 라벨 역할, V는 실제 값을 담는 역할을 맡는다. [05:31]
- 기본 구조 점검과 아직 부족한 GPT 구성요소
- 지금까지의 구조는 문자 라벨, 내부 표현을 위한 토큰 임베딩, Q·K·V를 통한 어텐션 점수와 가중 정보 계산으로 구성된다. [07:58]
- 하지만 이 단계만으로는 GPT 모델이라고 부르기에 부족하며, 학습을 제대로 시작하기 전 추가 구성요소가 더 필요하다. [08:26]
- 위치 임베딩과 멀티헤드 어텐션
- 기존 구조에는 토큰의 깊은 의미와 토큰 간 관계가 있지만, 시퀀스 안에서 토큰이 어떤 순서로 들어오는지 저장하는 장치가 없다. [09:51]
- “love your job”과 “job your love”는 같은 단어를 사용해도 순서가 바뀌면 의미가 크게 달라지므로, 모델에는 위치 정보를 학습할 별도 공간이 필요하다. [10:16]
- GPT에 남은 핵심 부품과 블록 확장
- 현재 구조에는 token embedding, positional embedding, attention mechanism이 있지만, 논문 기준 GPT와 비교하면 feedforward network, layer normalization, residual network 세 가지가 빠져 있다. [12:10]
- feedforward network는 attention 이후 토큰 간 관계를 더 깊게 가공할 공간을 만들며, token embedding이 토큰 수준의 표현 공간을 넓힌 것처럼 attention 수준의 표현 공간을 넓힌다. [12:36]
- Residual connection과 GPT 학습·최적화의 의미
- residual connection은 입력이 일반 경로를 우회해 나중에 다시 더해지는 구조이며, 모델이 길어질수록 각 block의 변화가 누적·증폭되는 불안정성을 줄인다. [14:11]
- residual connection에서는 입력 자체를 직접 바꾸기보다 입력 위에 수정분을 더하는 방식이 작동하고, 이 구조가 마지막 출력이 과도하게 왜곡되는 위험을 낮추는 결론부 논지로 계속된다. [14:42]
- GPT 구조 완성과 실제 학습의 필요성
- residual connection은 입력을 직접 바꾸기보다 입력 위에 수정분을 더하게 해, 끝에 도달했을 때 출력이 왜곡되는 것을 막는 마지막 안정화 장치로 정리된다. [14:56]
- 이렇게 쌓아 올린 전체 구조가 마침내 GPT로 불릴 수 있고, 앞서 설명한 Galton board의 내부 메커니즘을 GPT로 대체할 수 있다. [15:04]
- 다만 GPT와 닮은 배관을 만들었다고 바로 제 역할을 하는 것은 아니며, 실제 데이터로 GPT architecture를 훈련해야 한다. [15:17]
- 모델이 데이터셋처럼 행동하게 하려면 수십억·수조 개의 token을 통과시키는 작업이 필요하다. [15:25]
- 학습 최적화와 모델 계층 결정의 파급
- 훈련 방법에도 큰 rabbit hole이 있으며, stochastic gradient descent와 optimizer 같은 기법들이 더 나은 GPT model을 만드는 데 중요한 역할을 한다. [15:38]
- 여러 연구소는 방금 만든 GPT architecture의 각 구성요소와 training method까지 최적화하며, 각자 중요하다고 보는 요구에 맞춰 model layer의 다른 부분을 조정한다. [15:56]
- model layer의 결정은 application layer의 수요뿐 아니라 infrastructure와 chip layer의 제약까지 함께 고려하며 이어진다. [16:06]
- 이 결정은 agentic layer의 context window, speed, intelligence뿐 아니라 lower layer에서 필요한 hardware, interactivity, throughput까지 영향을 준다. [16:19]
🧾 결론
- 영상은 Transformer/GPT를 “마법 같은 블랙박스”가 아니라, 토큰을 표현하고 관계를 계산하며 다음 토큰을 예측하는 단계적 구조로 설명한다.
- 핵심 흐름은 토큰 분할 → 토큰 임베딩 → Q/K/V 어텐션 → 위치 임베딩 → 멀티헤드 어텐션 → feedforward·normalization·residual block 확장으로 이어진다.
- 단순히 GPT와 비슷한 구조를 만드는 것만으로 충분하지 않으며, 실제 성능은 수많은 토큰을 통한 학습과 optimizer 등 학습 방법의 영향을 받는다.
- 모델 구조의 선택은 context window, 생성 속도, 지능, 처리량, 하드웨어 제약과 함께 맞물려 결정된다는 점도 강조된다.
📈 투자·시사 포인트
- LLM 성능 경쟁은 단순 모델 크기뿐 아니라 어텐션 구조, 컨텍스트 처리, 학습 안정성, 추론 속도 개선의 경쟁으로 이어질 가능성이 크다.
- 더 긴 컨텍스트와 빠른 토큰 생성을 요구하는 AI 애플리케이션이 늘수록, 모델 아키텍처와 인프라 최적화의 중요성도 커진다.
- 영상 기준으로는 model layer의 선택이 infrastructure·chip layer의 제약과 연결되므로, AI 반도체·추론 인프라·고처리량 시스템은 Transformer 발전과 함께 주목할 영역이다.
- 검증 필요: 특정 연구소별 모델 구조나 실제 성능 우위는 영상에서 개념적으로만 언급되므로, 투자 판단에는 각 모델의 벤치마크, 비용 구조, 배포 환경 데이터를 별도로 확인해야 한다.
⚠️ 불확실하거나 확인이 필요한 부분
- OpenAI·Anthropic·DeepSeek·Minimax가 “각자 조정한 GPT 계열 모델”을 사용한다는 설명은 강의 맥락의 일반화로 보이며, 각 연구소의 실제 모델 구조·명칭·공개 범위는 공식 자료로 별도 확인이 필요하다.
- 4개 배치, 8개 토큰 블록, 32차원 임베딩, ASCII 128개 라벨은 설명을 위한 예시값으로 보이며, 실제 GPT 계열 모델의 표준 설정으로 단정하면 안 된다.
- Q·K·V, causal masking, head size 제곱근 스케일링은 핵심 원리는 설명되지만, softmax 적용 순서·행렬 차원·학습 가능한 파라미터 범위 등 구현 세부는 추가 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 노트 본문에서 4×8 배치, 32차원 임베딩, 128×32 테이블을 “강의용 단순 예시”로 명확히 표시한다.
- 토큰 임베딩, 위치 임베딩, Q·K·V 어텐션, causal masking, feedforward, layer norm, residual connection을 GPT 구성요소 체크리스트로 압축 정리한다.
- Q는 찾는 역할, K는 라벨 역할, V는 실제 값 역할이라는 설명을 유지하되, 실제 계산 흐름은 “QKᵀ 점수 → 스케일링/마스킹 → 확률화 → V 가중합” 순서로 정돈한다.
- 연구소별 모델 구조 관련 문장은 단정형 대신 “강의에서는 이렇게 설명한다”는 표현으로 낮추고, 필요 시 공식 문서 확인 항목으로 분리한다.
❓ 열린 질문
- 영상에서 설명한 위치 임베딩은 절대 위치 임베딩인지, 상대 위치 방식인지, 또는 단순 개념 설명에 그치는지 확인이 필요하다.
- feedforward network, layer normalization, residual connection이 transformer block 안에서 어떤 순서로 배치되는지 후속 설명이 있는지 확인해야 한다.
- 멀티헤드 어텐션에서 각 head가 어떤 “다른 관점”을 학습한다는 설명이 구체 예시로 이어지는지 확인필요가 있다.