Stanford CS336 Language Modeling from Scratch

🖼️ 인포그래픽

Stanford CS336 Language Modeling from Scratch 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Stanford CS336의 Post-Training - RLVR 강의는 RLHF의 보상 모델 한계를 넘어, 검증 가능한 보상을 가진 수학·코딩형 문제에서 GRPO와 RLVR이 어떻게 thinking model의 핵심 학습 경로가 되는지를 설명한다.

📌 핵심 요점

RLHF는 사람의 선호 데이터와 보상 모델에 의존하기 때문에 annotation bottleneck, reward model overfitting, overoptimization 문제가 생기며, 보상 모델을 더 강하게 최적화한다고 실제 목표가 함께 개선된다고 보기 어렵다.
RLVR은 수학·코딩처럼 정답을 검증할 수 있는 영역에서 더 잘 작동한다. AlphaGo가 승패라는 명확한 objective를 직접 최적화했듯이, verifiable reward가 있는 문제는 RL을 더 안정적으로 적용할 수 있는 조건을 제공한다.
PPO는 언어모델 RL에서 중요한 기본 알고리즘이지만, advantage estimation, value model, KL penalty, rollout 재사용, 안정화 hack 등 moving parts가 많아 구현과 운영이 매우 민감하다.
GRPO는 PPO의 복잡한 value function을 제거하고, 같은 prompt에서 여러 rollout을 뽑아 group 평균 대비 성과를 advantage로 삼는다. 이 단순성 때문에 open-source RLVR 재현과 DeepSeek Math·R1 계열 작업에서 중요한 기반이 됐다.
DeepSeek R1, Kimi K1.5, Qwen 3 사례는 RLVR의 성능 향상이 단일 알고리즘만이 아니라 reward 설계, 난이도 필터링, long chain-of-thought, SFT·distillation, 길이 제어, RL 인프라까지 결합된 post-training pipeline에서 나온다는 점을 보여준다.

🧩 배경과 문제 정의

RLHF는 선호 데이터와 보상 모델에 의존하기 때문에 annotation bottleneck과 reward model overfitting 문제가 발생한다. 같은 보상 모델에 compute를 계속 투입할수록 overoptimization 위험도 커진다.
AlphaGo처럼 승패 조건이 명확한 영역에서는 목표 자체를 직접 최적화할 수 있어 RL이 강하게 작동한다. 반면 RLHF의 선호 보상은 그만큼 정확한 목적 함수라고 보기 어렵다.
수학·코딩처럼 정답 검증이 가능한 문제는 reinforcement learning from verifiable rewards에 더 잘 맞는다. 이 맥락에서 긴 chain-of-thought와 hard verifiable problem 해결 능력이 중요한 변화로 떠오른다.
PPO는 언어모델 RL의 핵심 알고리즘이지만, 실제 구현은 advantage estimation, value model, KL penalty, rollout 재사용 등 여러 moving parts가 얽혀 있어 민감하고 복잡하다.
GRPO는 value function을 제거하고, 같은 prompt에서 생성한 여러 rollout의 상대적 성과로 advantage를 계산해 RLVR을 더 단순하고 실용적인 방식으로 만든다.
최근 DeepSeek R1, Kimi K1.5, Qwen 3 계열은 RLVR이 단순한 알고리즘 변경을 넘어 데이터 구성, long CoT, length control, mid-training, agentic post-training까지 이어지는 post-training 패러다임임을 보여준다.

🕒 시간순 섹션별 상세정리

1. RLVR의 위치와 thinking model의 문제 설정

이번 강의 주제는 RLVR, 즉 검증 가능한 보상을 활용한 reinforcement learning이다. OpenAI의 thinking model이 어려운 공개 수학 문제를 푼 최근 사례도 같은 흐름 위에 있다 [00:12]
앞서 instruction tuning과 RLHF로 ChatGPT식 모델을 만드는 과정을 다뤘고, 이제 핵심은 긴 chain-of-thought로 수학·코딩 같은 hard verifiable problem을 푸는 thinking model 능력이다 [00:43]

2. RLHF 한계와 verifiable domain의 동기

RLHF는 정규화를 잘해도 overoptimization을 피하기 어렵다. reward model을 과도하게 최적화할수록 실제 목표가 아니라 보상 모델의 허점을 학습하는 문제가 생긴다 [01:34]
AlphaGo는 Go의 승패 조건 자체를 최적화하므로 objective 개선이 실제 성능 향상으로 이어지지만, RLHF는 사람이 만든 선호 보상에 의존해 목표와 보상 사이에 sloppiness가 남는다 [02:16]

3. 강의 구성과 PPO로 들어가는 이유

알고리즘의 큰 틀은 비슷하더라도, verifiable reward 영역에서는 최종 모델의 행동과 학습 결과가 RLHF와 상당히 달라질 수 있다 [03:01]
강의 전반부는 GRPO와 PPO 같은 core algorithm을 다루고, 이후 여러 open-source model release의 technical report에서 이 알고리즘들이 어떻게 반영되는지 비교한다 [03:17]

4. PPO의 기본 형태와 실제 RL 적용 사례

PPO는 deep RL의 workhorse로 널리 쓰였으며, OpenAI Gym의 보행 예제나 OpenAI Five bot처럼 고차원 action·state space에서도 강한 성과를 낸 사례가 있다 [05:14]
개념적으로 PPO는 trajectory를 sample하고 advantage를 계산한 뒤, clipped advantage로 policy를 업데이트하며 value function을 맞추는 구조로 요약할 수 있다 [06:06]

5. 언어모델 PPO 구현의 복잡성과 moving parts

언어모델용 PPO에는 advantage estimation, experience buffer, value model 학습, 그리고 그 value model을 다시 advantage 계산에 쓰는 순환 구조가 얽혀 있다 [07:51]
KL term은 token by token으로 작동하므로 문제는 단순 bandit이 아니라 multi-step RL이 된다. 이 구조가 구현 난도와 학습 불안정성을 크게 높인다 [08:16]

6. PPO 안정화 hack과 value model 부담

KL penalty로 원래 모델을 reference에 가깝게 유지하려 해도, KL을 0에서 clip하지 않으면 학습이 곧바로 blow up하는 사례가 있다. 이 조치는 KL divergence의 본래 의미를 일부 훼손한다 [09:43]
PPO는 moving parts가 많고 gradient estimate의 variance도 높아 구현이 민감하다. 따라서 안정화를 위한 hack이 실제 성능을 좌우할 수 있다 [10:10]

7. DPO의 적용 한계와 GRPO로 이동하는 배경

value model은 원래 모델과 비슷한 크기의 추가 네트워크이므로, 그만큼의 메모리를 모델 실행이나 inference server에 쓰지 못하게 만든다 [12:00]
DPO는 Bradley-Terry pair-wise feedback에 특화된 해법이다. 수학 문제처럼 본질적으로 쌍대 비교가 아닌 과제에는 잘 맞지 않는다 [12:20]

8. GRPO의 핵심 변경점: value function 제거와 group advantage

GRPO는 PPO의 핵심 아이디어를 유지하되, gradient variance를 줄이기 위해 사용하던 value function을 제거한다 [13:54]
vanilla REINFORCE는 variance가 매우 커질 수 있으므로, GRPO는 value network 대신 같은 prompt에서 생성한 여러 rollout 내부의 z-score로 advantage를 계산한다 [14:23]

9. GRPO 목적함수와 online rollout에서의 단순화

DeepSeek 논문의 GRPO 목적함수는 PPO처럼 clipped advantage와 reference model에 가깝게 머물게 하는 KL term을 함께 사용한다 [15:21]
advantage는 같은 group 안의 rollout reward에서 평균을 빼고 표준편차로 나눈 z-score이며, 각 output은 group 내부의 상대 성과를 기준으로 가중된다 [15:45]

10. 구현 관점에서의 GRPO 단순성과 open-source 확산

value function이 없기 때문에 GRPO는 K번 rollout을 만들고, 관측 rollout을 같은 group의 K개 reference와 비교한 뒤 z-score를 적용하는 짧은 코드 블록으로 구현할 수 있다 [17:10]
구현 절차는 각 rollout의 reward 계산, rollout reward normalization, KL term 계산, 그리고 KL과 rollout 기반 loss를 결합한 gradient update로 압축된다 [17:36]

11. DeepSeek Math 결과와 process supervision의 의미

DeepSeek Math 결과에서 GRPO 계열인 노란색·파란색 line은 rejection fine-tuning보다 높은 성능을 보인다 [19:12]
rejection fine-tuning은 모델이 생성한 정답만 학습에 사용하고 나머지는 버리는 baseline이다. 이 점에서 reward를 활용하는 GRPO와 대비된다 [19:29]

12. GRPO advantage의 이론적 문제와 정규화 항의 영향

valid policy gradient에서는 reward에서 state-dependent baseline을 빼는 것이 허용된다. 그러나 GRPO의 z-score advantage는 표준편차로 나누기 때문에 이 조건을 그대로 따르지 않는다 [20:05]
prompt-dependent baseline을 빼면 gradient 방향을 유지하면서 variance를 낮출 수 있다. 하지만 GRPO는 baseline subtraction에 더해 reward scale normalization까지 수행한다 [20:51]

13. 길이 정규화와 표준편차 정규화가 만드는 학습 왜곡

오답으로 음수 보상을 받을 상황에서는 모델이 매우 긴 문자열을 생성해 패널티를 길이로 희석할 수 있고, 출력 길이로 나누는 방식은 문제를 못 푼다고 판단한 순간 장황한 답변을 유도한다 [24:01]
이 길이 문제를 완화하면 GRPO에서 관찰된 chain-of-thought 길이 증가가 무한히 커지지 않고 일정 수준에서 멈출 수 있으며, 특히 틀린 사례에서 긴 출력을 계속 늘리는 행동은 바람직하지 않다 [24:35]

14. RLVR 알고리즘 논의에서 DeepSeek R1 사례로 전환

RLVR의 알고리즘 구성요소 검토를 마친 뒤, 논의는 최근 모델 릴리스들의 세부 구성과 배포에서 중요해진 agentic 요소 비교로 넘어간다 [25:57]
DeepSeek R1은 오픈소스 RLVR 모델 흐름을 촉발한 사례로, OpenAI o1처럼 긴 chain-of-thought, 뚜렷한 RL 흔적, 어려운 수학 문제 성능을 보여준 첫 공개 모델 중 하나로 평가된다 [26:34]

15. R1-Zero의 단순한 GRPO 레시피와 o1 근접 성능

R1-Zero는 mid-training된 base model 위에 RLVR을 적용하고, 수학 문제의 정답 여부를 보는 accuracy reward와 chain-of-thought를 thinking tag 안에 넣도록 하는 format reward를 사용한다 [28:39]
format reward는 이후 chain-of-thought를 분리하거나 제거할 수 있게 해주는 장치이며, GRPO와 accuracy reward 중심의 구성은 복잡한 생산형 후처리 없이도 실험 가능한 단순한 레시피가 된다 [29:02]

16. R1의 핵심 성과는 현상 자체보다 단순한 RLVR 가능성

aha moment는 RL 알고리즘이 새로 만들어낸 현상이라기보다, pre-training에서 이미 배운 표현이 수학 토큰을 많이 생성하는 과정에서 드러난 것일 가능성이 크다 [30:51]
R1의 중요한 의미는 바이럴한 현상 자체보다, 단순한 RLVR만으로 어려운 문제를 풀 수 있는 깔끔한 알고리즘적 경로를 보여준 데 있으며, R1-Zero는 이를 통제된 설정에서 확인한 사례다 [31:20]

17. R1의 SFT·distillation과 RL의 역할 경계

R1은 R1-Zero와 달리 긴 chain-of-thought 데이터를 SFT에 사용하며, “소량의 long CoT data를 구성·수집했다”는 표현은 다른 모델에서 distillation된 데이터일 가능성을 조심스럽게 떠올리게 한다 [33:10]
좋은 base model에 long CoT SFT를 적용하면 o1식 능력의 상당 부분이 열릴 수 있고, 검증으로 chain-of-thought를 필터링한 뒤 RL 단계로 넘어가는 출발점이 된다 [33:51]

18. R1의 최종 파이프라인과 성능 충격

R1의 RL 단계는 language consistency loss를 제외하면 R1-Zero와 거의 같고, GRPO 학습 뒤에는 기본 instruction tuning SFT와 RLHF가 이어져 비검증 과제를 DeepSeek V3와 유사한 방식으로 처리한다 [35:01]
최종 모델은 여러 범주에서 o1을 이기거나 맞먹었고, 기대되던 test-time scaling 행동도 상당 부분 재현했기 때문에 DeepSeek에 대한 큰 주목과 긴장감을 만들었다 [35:34]

19. R1 distillation과 outcome reward model의 실용성

R1의 긴 CoT를 Qwen 2.5에 주입하면 일부 경우 전문 thinking model에 가까운 성능까지 올라가며, 올바른 형태의 긴 추론 경로가 base model의 장기 추론 능력을 끌어낸다 [36:07]
Llama 계열에서도 비슷한 효과가 나타나며, base model은 별도의 thinking 특화 없이도 긴 reasoning을 수행할 잠재력을 이미 갖고 있다 [36:31]

20. Length normalizer와 긴 오답 출력의 영향

positive case에서는 length normalizer가 CoT를 짧게 만들도록 압력을 주며, 이는 추론 비용을 줄일 수 있지만 정확도를 떨어뜨릴 위험도 만든다 [38:41]
correct answer에는 문제 해결에 필요한 최소 CoT 길이가 있어 줄일 수 있는 폭이 제한되지만, negative answer에서는 매우 긴 응답이 발생할 수 있다 [38:55]

21. Kimi K1.5가 보여주는 다른 성공 경로

Kimi K1.5는 R1과 비슷한 시기에 나왔고 o1을 능가했지만, DeepSeek보다 덜 자주 논의되는 강한 모델 계열이다 [40:02]
Kimi는 DeepSeek와 다른 설계 선택을 포함하며, 두 접근이 모두 작동한다는 사실은 RLVR 알고리즘의 유효한 설계 공간을 넓혀준다 [40:33]

22. RL 데이터 커리큘럼과 중간 난이도 필터링

RL에서는 문제 난이도가 직접적인 학습 신호를 좌우하며, 너무 어려운 문제는 reward가 전혀 나오지 않아 학습이 멈춘다 [41:29]
Kimi는 넓은 데이터 커버리지를 확보하되, 긴 깊은 사고를 요구하지 않는다고 판단한 multiple choice 문제를 제외한다 [42:18]

23. DPO식 출발점에서 GRPO와 닮은 업데이트로 수렴

Kimi의 RL 알고리즘은 DPO에서 영감을 받은 논리로 출발하지만, 최종적으로는 GRPO와 비슷한 구조에 도달한다 [43:52]
목적식은 policy 아래 expected reward를 최대화하고 KL regularizer로 base policy 또는 이전 iteration policy에서 너무 멀어지지 않게 만든다 [44:14]

24. 긴 COT 압축과 추론 비용 제약

Kimi는 길이 증가를 단순한 지능 향상 신호로 보지 않고, 긴 COT가 inference 비용을 크게 늘리는 낭비가 될 수 있다는 문제를 앞세운다 [46:25]
Kimi objective는 sequence length로 normalize하지 않아 GRPO식 length problem을 피하지만, 거기서 멈추지 않고 response length 자체를 더 압축하려 한다 [47:06]

25. 길이 보상은 짧은 답변과 실패 복구 가능성 사이에서 균형을 잡아야 한다

RL 과정에 길이 보상이 추가되며, 긴 sequence를 점점 짧게 만들고 정답도 짧게 유지하려는 압력이 생긴다 [48:02]
오답을 지나치게 짧게 만들면 모델이 어려운 영역에서 reasoning 공간을 잃고, 예를 들어 geometry 풀이가 0에 가까워지면 이후 정답 보상을 받을 기회 자체가 사라진다 [48:22]

26. 데이터셋 필터링과 정답 검증은 RLVR 성능과 비용을 동시에 좌우한다

모델이 이미 마스터한 문제는 problem set에서 제거되고, 성공률 기반 필터링은 compute 낭비와 지나치게 어려운 문제 학습을 동시에 줄인다 [49:12]
코드 과제는 ground solution에서 새 test case를 생성하고, 수학 과제는 reward model로 answer equivalence를 확인하면서 과제 유형별 검증 방식이 달라진다 [49:44]

27. RL 인프라는 rollout 길이, 장비 전환, on-policy 안정성 때문에 병목이 커진다

RL은 training의 어려움과 inference의 어려움을 결합하며, 긴 rollout 하나가 batch 전체를 기다리게 만들면 전체 처리량이 크게 떨어진다 [51:18]
어려운 수학 문제 하나에서 거대한 chain-of-thought가 생성되면 naive inference에서는 다른 rollout들이 그 하나의 완료를 기다리며 다음 단계로 넘어가지 못한다 [51:52]

28. Kimi 결과는 길이 제어와 RL 성능 이득을 함께 보여준다

Kimi는 OpenAI o1을 넘는 결과를 보이고, RL이 진행될수록 더 오래 생각하면서 성능이 올라가는 패턴이 나타난다 [54:19]
OmniMath처럼 thinking token이 크게 늘지 않아도 성능이 계속 오르는 경우가 있으며, 이는 length control이 작동해 불필요한 길이 증가 없이 성능을 높이는 사례로 볼 수 있다 [54:33]

29. Qwen 3는 frontier식 post-training pipeline과 작은 RLVR 데이터셋의 효율을 보여준다

Qwen 3와 Qwen 3.5 Next Coder는 scaling과 data 결과가 흥미롭고, Qwen 3.5 Next Coder는 주요 tech report 중 agentic RLVR training 세부사항이 많은 편이다 [55:40]
Qwen 계열 pipeline은 base model에서 SFT, reasoning RL, thinking mode fusion, RLHF, shipped model로 이어지고, 이후 distillation을 통해 smaller model을 만든다 [56:18]

30. Qwen 3의 thinking mode는 즉시 응답과 긴 추론을 한 모델 안에서 조절한다

Qwen 3의 RLVR 구성은 DeepSeek R1과 Kimi 위에 구축되어 크게 낯설지는 않지만, thinking과 non-thinking을 tag로 섞는 방식이 특징적이다 [57:58]
instant response model과 long chain-of-thought model이 같은 모델 안에 공존하며, 이전처럼 thinking model과 non-thinking model을 별도로 두는 방식과 다르다 [58:18]

31. thinking/non-thinking 통합 모델의 성능 trade-off

reasoning RL 이후 general RL을 더하면 Arena Hard·CounterFact QA 같은 일반 과제 성능이 전반적으로 오르고, normal RLHF가 필요한 영역에서 이득이 커진다 [1:00:30]
thinking과 non-thinking 구성요소를 한 모델에 섞으면 math·coding 성능이 일부 떨어지지만, 해당 구간의 절대 하락 폭은 크지 않다 [1:00:34]

32. 에이전트 post-training의 핵심은 데이터와 mid-training

Qwen 3 Coder Next는 에이전트 post-training 사례로 소개되며, 에이전트 학습에서도 핵심 쟁점은 새로운 전용 알고리즘보다 어떤 데이터를 어떻게 구성하느냐에 있다 [1:01:43]
에이전트 능력은 마지막 단계에서 단순히 덧붙이기 어렵기 때문에, coding과 agent-like capability를 충분히 주입하기 위한 별도의 mid-training 단계가 중요해진다 [1:02:13]

33. Qwen 3 Coder Next의 전문가 모델 분기와 증류

mid-trained Qwen 3 Next 모델에서 coding-adjacent task별 expert model을 각각 훈련한 뒤, 네 종류의 agent expert를 다시 하나의 모델로 증류한다 [1:04:15]
이 구조는 일반적인 frontier model training 방식과는 다소 다르며, DeepSeek의 data-processing expert나 branch-train-merge 계열 연구에 더 가까운 접근이다 [1:04:51]

34. SWE-bench형 환경과 reward hacking 문제

GitHub에서 자동 생성한 issue와 environment를 기반으로 RL을 수행하면 software engineering task 성능은 향상될 수 있지만, 그 효과는 reward 설계가 얼마나 안전한지에 크게 좌우된다 [1:06:10]
RL에 더 많은 compute를 투입할 수 있다는 주장은 reward model이 hack 불가능하거나 최소한 hack하기 어렵다는 전제에 의존한다 [1:06:24]

35. 검증 보상의 취약성과 SWE-bench 성능 해석

RLVR의 안정성은 reward의 견고함을 넘어서지 못하며, reward가 취약하면 verifiable task에서도 모델은 그 허점을 찾아낸다 [1:07:38]
Lean 같은 formal math 검증 환경도 adversarial robustness가 자동으로 보장되는 것은 아니며, 특정 문자열이 원래 통과하면 안 되는 proof를 검증 통과시키는 취약점이 생길 수 있다 [1:08:06]

36. RLVR 원칙, prompt 기반 thinking mode, mid-training coverage

RLVR의 핵심은 reward이며, RLHF와 문제 구조는 비슷하지만 RLVR은 더 unhackable한 reward를 목표로 하기 때문에 더 많은 compute를 비교적 안정적으로 투입할 수 있다 [1:09:35]
GRPO는 연구 커뮤니티에서 RLVR 확산을 가능하게 한 중요한 방법이며, 그 functional form과 update 방식은 pre-training loss만큼 익숙하게 이해해야 한다 [1:09:53]

37. 중간학습의 필요성과 전문가 모델 디스틸레이션의 trade-off

사전학습이 텍스트·코드·GitHub류 데이터를 폭넓게 포함했다면 중간학습은 일반화 개선에 도움이 되지만, 반드시 절대적인 병목은 아니며 SFT는 RL 보상을 받기 시작할 수준의 초기 성능을 보완한다 [1:12:00]
SFT가 없으면 모델이 RL 과정에서 의미 있는 보상을 얻기 어렵고, 사전학습의 넓은 coverage와 SFT의 보정이 중간학습 부족을 어느 정도 완충할 수 있다 [1:12:17]

38. 장문 추론·문맥 확장·도메인별 RL의 단계 배치

long CoT SFT는 R1과 Kimi K1.5 1.1 같은 사례에 포함되지만, 전통적 의미의 mid-training이라기보다 RLHF 직전의 별도 장문 문맥 확장 단계와 겹치는 성격이 크다 [1:13:52]
장문 문맥 확장에는 충분히 긴 books, code, synthetic data가 주로 사용되며, 긴 context를 확보한 뒤 RLHF나 long CoT 관련 학습으로 이어지는 흐름이 형성된다 [1:14:20]

🧾 결론

이 강의의 중심 메시지는 RLVR이 RLHF의 단순한 변형이 아니라, 검증 가능한 보상을 가진 문제에서 언어모델 post-training의 새로운 핵심 축이 되고 있다는 점이다.
PPO는 여전히 중요한 기준점이지만, 실제 언어모델 학습에서는 value model 비용과 구현 복잡성이 크다. GRPO는 이를 줄이면서도 group-based advantage로 유효한 학습 신호를 만들 수 있어 RLVR 확산의 실용적 계기가 됐다.
다만 GRPO도 완전히 원칙적인 policy gradient라고 보기는 어렵다. 표준편차 정규화와 길이 정규화는 학습 목표를 왜곡할 수 있고, 특히 오답에서 장황한 chain-of-thought를 유도하는 문제가 생길 수 있다.
DeepSeek R1의 의미는 “aha moment” 같은 현상 자체보다, 비교적 단순한 RLVR 레시피만으로 어려운 수학 문제 성능을 끌어올릴 수 있음을 통제된 방식으로 보여준 데 있다.
RLVR의 성능은 reward의 견고함을 넘어서기 어렵다. reward checker가 허술하면 모델은 실제 문제 해결보다 보상 허점을 찾을 수 있으며, 이는 수학·코딩처럼 검증 가능해 보이는 영역에서도 여전히 중요한 위험이다.

📈 투자·시사 포인트

AI 모델 경쟁의 핵심은 pre-training 규모만이 아니라 post-training pipeline으로 이동하고 있다. RLVR, SFT, distillation, RLHF, thinking mode 조합을 얼마나 안정적으로 운영하느냐가 모델 성능 차이를 만들 수 있다.
GRPO처럼 단순하고 재현 가능한 RLVR 방법은 open-source 진영의 추격 속도를 높이는 요인이 될 수 있다. DeepSeek R1 사례처럼 복잡한 비공개 시스템이 아니어도 강한 reasoning 성능을 구현할 수 있다는 점은 경쟁 구도를 바꿀 수 있다.
RLVR은 compute를 더 넣을 수 있는 구조를 제공하지만, 그 전제는 reward가 충분히 견고하다는 것이다. 따라서 단순한 모델 파라미터 경쟁뿐 아니라 reward 설계, answer checker, 데이터 필터링, evaluation 보안이 중요한 병목으로 부상한다.
긴 chain-of-thought는 성능 향상과 비용 증가를 동시에 만든다. Kimi와 Qwen 사례처럼 thinking length를 제어하고, 즉시 응답과 긴 추론을 한 모델 또는 파이프라인 안에서 조절하는 능력은 inference 비용과 사용자 경험 측면에서 중요해질 수 있다.
검증 필요: 강의에서 언급된 DeepSeek R1, Kimi, Qwen 계열의 성능 비교는 각 technical report와 benchmark 조건에 의존한다. 실제 투자 판단에는 공개 benchmark의 재현성, 데이터 오염 가능성, inference 비용, reward hacking 방어 수준을 별도로 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

DeepSeek R1의 “소량의 long CoT data”가 다른 모델에서 증류된 데이터일 가능성은 강의자가 조심스럽게 제기한 해석에 가깝고, 입력 정보만으로는 확정할 수 없다.
R1에서 관찰된 “aha moment”가 RL 학습으로 새롭게 생긴 현상인지, 사전학습에서 이미 배운 표현이 긴 수학 추론 과정에서 드러난 것인지는 명확히 단정하기 어렵다.
Kimi와 Qwen 계열의 SFT·mid-training 세부 구성은 공개 정보가 제한적이라고 언급되므로, 모델 간 파이프라인 비교는 각 technical report 원문 확인이 필요하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

PPO와 GRPO의 차이를 value model 유무, advantage 계산 방식, KL regularizer, rollout 재사용 관점에서 표로 정리한다.
GRPO의 z-score advantage와 length normalization이 policy gradient 관점에서 왜 문제가 되는지 별도 메모로 정리한다.
DeepSeek R1, Kimi K1.5, Qwen 3의 post-training pipeline을 SFT, RLVR, RLHF, distillation, thinking mode 기준으로 비교한다.
RLVR 실험을 설계할 때 reward checker의 취약점, answer equivalence, regex/model 기반 판정 오류를 사전 점검 항목으로 만든다.

❓ 열린 질문

RLVR에서 성능 향상의 핵심은 RL 알고리즘 자체인가, 아니면 base model·SFT·long CoT 데이터·reward checker 품질의 조합인가?
GRPO의 단순성과 재현성은 장점이지만, z-score normalization과 length normalization의 왜곡을 제거한 대안이 더 안정적인 표준이 될 수 있을까?
Outcome reward만으로 frontier-level reasoning을 계속 확장할 수 있는지, 아니면 일부 영역에서는 process supervision이나 더 강한 검증 체계가 다시 필요해질까?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. RLVR의 위치와 thinking model의 문제 설정

2. RLHF 한계와 verifiable domain의 동기

3. 강의 구성과 PPO로 들어가는 이유

4. PPO의 기본 형태와 실제 RL 적용 사례

5. 언어모델 PPO 구현의 복잡성과 moving parts

6. PPO 안정화 hack과 value model 부담

7. DPO의 적용 한계와 GRPO로 이동하는 배경

8. GRPO의 핵심 변경점: value function 제거와 group advantage

9. GRPO 목적함수와 online rollout에서의 단순화

10. 구현 관점에서의 GRPO 단순성과 open-source 확산

11. DeepSeek Math 결과와 process supervision의 의미

12. GRPO advantage의 이론적 문제와 정규화 항의 영향

13. 길이 정규화와 표준편차 정규화가 만드는 학습 왜곡

14. RLVR 알고리즘 논의에서 DeepSeek R1 사례로 전환

15. R1-Zero의 단순한 GRPO 레시피와 o1 근접 성능

16. R1의 핵심 성과는 현상 자체보다 단순한 RLVR 가능성

17. R1의 SFT·distillation과 RL의 역할 경계

18. R1의 최종 파이프라인과 성능 충격

19. R1 distillation과 outcome reward model의 실용성

20. Length normalizer와 긴 오답 출력의 영향

21. Kimi K1.5가 보여주는 다른 성공 경로

22. RL 데이터 커리큘럼과 중간 난이도 필터링

23. DPO식 출발점에서 GRPO와 닮은 업데이트로 수렴

24. 긴 COT 압축과 추론 비용 제약

25. 길이 보상은 짧은 답변과 실패 복구 가능성 사이에서 균형을 잡아야 한다

26. 데이터셋 필터링과 정답 검증은 RLVR 성능과 비용을 동시에 좌우한다

27. RL 인프라는 rollout 길이, 장비 전환, on-policy 안정성 때문에 병목이 커진다

28. Kimi 결과는 길이 제어와 RL 성능 이득을 함께 보여준다

29. Qwen 3는 frontier식 post-training pipeline과 작은 RLVR 데이터셋의 효율을 보여준다

30. Qwen 3의 thinking mode는 즉시 응답과 긴 추론을 한 모델 안에서 조절한다

31. thinking/non-thinking 통합 모델의 성능 trade-off

32. 에이전트 post-training의 핵심은 데이터와 mid-training

33. Qwen 3 Coder Next의 전문가 모델 분기와 증류

34. SWE-bench형 환경과 reward hacking 문제

35. 검증 보상의 취약성과 SWE-bench 성능 해석

36. RLVR 원칙, prompt 기반 thinking mode, mid-training coverage

37. 중간학습의 필요성과 전문가 모델 디스틸레이션의 trade-off

38. 장문 추론·문맥 확장·도메인별 RL의 단계 배치

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

AI 뉴스 - 클로드 Fable 5 금지, Gemini 실시간 번역, GLM-5.2, Kimi-K2.7-Code, MiniMax M3, SpaceX AI1 위성 등

앤트로픽 클로드의 최상위 모델 Fable, 탈옥 논란으로 막히다

Google DeepMind is worried about what happens when millions of agents start to interact

I Built an Entire AI Recruiter Team with Claude Code in 15 min

[손경제] 실업급여

[한글자막] Guy Podjarny - 스킬은 새로운 코드입니다 - AI Native DevCon 2026년 6월