Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective

🖼️ 인포그래픽

Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

이 글은 GPT-OSS를 에이전트형 강화학습의 백본 모델로 활용하기 위해 verl 기반 PPO 학습에서 발견한 온폴리시 불일치, 훈련·추론 불일치, attention sink 미지원 문제를 단계적으로 진단하고 수정한 실험 회고다.

📌 핵심 요약

에이전트형 강화학습은 단일 응답을 최적화하는 방식이 아니라, 모델이 환경과 상호작용하며 도구 호출, 관찰, 계획 수정, 다단계 의사결정을 학습하도록 하는 접근이다.
저자들은 GPT-OSS-20B를 중심으로 GSM8K, ReTool, 검증 가능한 instruction following 과제를 사용해 verl에서 에이전트형 RL 학습 가능성을 검증했고, GPT-OSS-120B에도 적용 가능한 attention-sink 수정 방향을 확인했다.
초기 실험에서는 GPT-OSS가 Qwen-2.5-32B보다 낮은 보상 흐름을 보였고, KL divergence·entropy·gradient norm이 폭증하며 보상이 개선되지 않는 문제가 관찰됐다.
첫 번째 핵심 원인은 MoE 구조와 verl의 이중 forward pass로 인해 on-policy PPO에서도 current log-probability와 old log-probability가 달라지고, importance sampling ratio가 1에서 벗어나는 현상이었다.
log-probability 대체로 PPO의 온폴리시 조건을 복원한 뒤에도 불안정성이 남자, 저자들은 rollout correction과 attention layer freeze 실험을 통해 훈련·추론 실행 경로와 attention sink 구현 차이가 GPT-OSS RL 안정성의 핵심 병목임을 좁혀 갔다.

🧩 주요 포인트

에이전트형 강화학습은 단일 응답을 최적화하는 방식이 아니라, 모델이 환경과 상호작용하며 도구 호출, 관찰, 계획 수정, 다단계 의사결정을 학습하도록 하는 접근이다.
저자들은 GPT-OSS-20B를 중심으로 GSM8K, ReTool, 검증 가능한 instruction following 과제를 사용해 verl에서 에이전트형 RL 학습 가능성을 검증했고, GPT-OSS-120B에도 적용 가능한 attention-sink 수정 방향을 확인했다.
초기 실험에서는 GPT-OSS가 Qwen-2.5-32B보다 낮은 보상 흐름을 보였고, KL divergence·entropy·gradient norm이 폭증하며 보상이 개선되지 않는 문제가 관찰됐다.
첫 번째 핵심 원인은 MoE 구조와 verl의 이중 forward pass로 인해 on-policy PPO에서도 current log-probability와 old log-probability가 달라지고, importance sampling ratio가 1에서 벗어나는 현상이었다.
log-probability 대체로 PPO의 온폴리시 조건을 복원한 뒤에도 불안정성이 남자, 저자들은 rollout correction과 attention layer freeze 실험을 통해 훈련·추론 실행 경로와 attention sink 구현 차이가 GPT-OSS RL 안정성의 핵심 병목임을 좁혀 갔다.

🧠 상세 정리

1. 에이전트형 강화학습의 문제 설정

글은 에이전트형 강화학습을 기존 LLM 학습 방식과 구분하는 데서 시작한다. 전통적인 단일 턴 강화학습이나 오프라인 선호학습은 정적인 데이터셋에 의존하는 반면, 에이전트형 RL은 모델이 훈련 중 직접 환경과 상호작용하며 온폴리시 데이터를 수집한다. 이 과정에서 모델은 계획을 세우고, 도구를 호출하고, 결과를 관찰하며, 여러 단계에 걸쳐 행동을 조정한다. 따라서 보상은 최종 답변뿐 아니라 질의 재구성, 도구 선택, 실행 순서 같은 중간 의사결정이 downstream 성공에 미치는 영향까지 반영해야 한다.

2. LinkedIn이 주목한 에이전트 능력

저자들은 LinkedIn이 전문가의 성공을 돕는 에이전트를 구축하는 AI-first 회사라는 맥락에서 이 연구의 필요성을 설명한다. 이 환경의 모델은 완전하지 않은 정보를 바탕으로 추론하고, 구조화된 서비스와 상호작용하며, 사용자의 의도가 여러 단계에서 변하는 상황에 적응해야 한다. 특히 채용 담당자, 구직자, 지식 탐색자, 학습자를 돕는 에이전트는 정보 검색, 질의 개선, 도구 조율, 다단계 워크플로 실행을 안정적으로 수행해야 한다. 저자들은 상호작용을 통해 견고한 의사결정 정책을 학습하는 에이전트형 RL이 확장 가능하고 신뢰할 수 있는 AI 시스템의 기반이 될 수 있다고 본다.

3. GPT-OSS를 에이전트형 RL 백본으로 검증하려는 목적

글의 핵심 질문은 GPT-OSS가 에이전트형 강화학습의 백본 모델로 적합한지를 실제 학습 과정에서 검증하는 것이다. 저자들은 GPT-OSS가 OpenAI o3-mini와 o4-mini에 견줄 만한 성능을 보였다고 언급하지만, agentic RL training에 대한 적합성은 아직 충분히 확인되지 않았다고 지적한다. 기존 작업 다수는 도구 호출이 없는 fine-tuning에 집중되어 있었기 때문에, 이 글은 도구 사용과 다단계 상호작용이 포함된 학습을 실제로 가능하게 만드는 과정을 다룬다. 실험 프레임워크로는 오픈소스 커뮤니티에서 널리 사용되는 verl을 선택했고, GPT-OSS-20B를 중심으로 결과를 제시한다.

4. 실험 과제와 초기 장애 징후

저자들은 GSM8K, ReTool, 검증 가능한 instruction following 과제를 RL 학습 실험에 사용했다. 특히 ReTool은 모델이 수학 문제를 해결할 때 코드 컴파일러 도구의 도움을 받을 수 있는 에이전트형 코딩 과제로 소개된다. 모델은 산술 계산이나 실행을 도구에 맡기고, 실행 결과를 피드백으로 사용해 풀이를 다듬은 뒤 최종 답을 내며, 그 최종 답을 기준으로 보상을 받는다. 그러나 초기 GPT-OSS 학습에서는 KL divergence와 entropy가 폭증하고, gradient norm도 학습이 진행될수록 커졌으며, 보상은 개선되지 않았다. 이는 단순한 성능 부족이 아니라 학습 설정 내부에 구조적 문제가 있음을 보여주는 신호였다.

5. Harmony 템플릿과 verl 지원 문제

GPT-OSS에는 새로운 Harmony chat template이 도입되었고, 저자들은 agentic RL을 시작하기 위한 첫 단계로 verl이 이 메시지 형식과 대화 의미론을 제대로 지원해야 한다고 본다. 에이전트형 학습에서는 rollout 생성, trajectory 구성, 도구 호출 파싱이 모두 대화 포맷에 의존하기 때문에 템플릿 지원이 불완전하면 학습 데이터 자체가 왜곡될 수 있다. 저자들은 팀이 이전부터 verl을 사용하고 기여해 왔다고 설명하며, 이번 작업도 오픈소스 RL 학습을 민주화하려는 연장선에 놓는다. 즉 문제는 단순히 모델 하나를 fine-tuning하는 것이 아니라, 모델 형식·프레임워크·도구 호출·보상 계산이 일관되게 맞물리도록 만드는 데 있었다.

6. PPO 온폴리시 조건을 깨뜨린 MoE log-probability 불일치

가장 먼저 확인된 핵심 문제는 PPO의 온폴리시 무결성이 깨지는 현상이었다. 순수 on-policy PPO에서는 현재 정책과 데이터를 생성한 이전 정책이 같아야 하므로 importance sampling ratio가 정확히 1이어야 한다. 하지만 ReTool 학습에서 non-zero clipping value가 관찰되었고, 이는 current log-probability와 old log-probability가 같은 state-action pair에 대해 서로 다르게 계산되고 있음을 뜻했다. 저자들은 verl 0.3.0 이전 구현이 동일한 입력에 대해 두 번의 별도 forward pass를 사용했고, GPT-OSS 같은 MoE 구조에서는 게이팅 네트워크의 expert routing이 미세한 부동소수점 차이나 구현상의 stochasticity 때문에 달라질 수 있다고 설명한다. 그 결과 log probability가 달라지고 ratio가 1에서 벗어나 PPO clip이 잘못 작동했다.

7. log-probability 대체로 PPO ratio를 1로 복원

저자들이 제시한 해결책은 학습 환경이 온폴리시임을 알고 있는 경우 old_log_prob를 새로 계산한 log_prob의 detach 값으로 대체하는 것이다. 구체적으로 minibatch size가 global batch size와 같아 on-policy 상황으로 판단되면, 저장된 old_log_probs를 그대로 쓰지 않고 old_log_prob = log_prob.detach()로 설정한다. 이렇게 하면 current log-probability와 old log-probability가 수학적으로 같아져 importance ratio가 1로 고정되고, MoE routing의 비결정성 때문에 생기는 잘못된 clipping을 피할 수 있다. 이 수정은 PPO의 핵심 가정인 온폴리시 업데이트를 복원한다는 점에서 중요하지만, 이후 실험은 이것만으로 GPT-OSS 학습 문제가 완전히 해결되지 않음을 보여준다.

8. 훈련·추론 불일치와 rollout correction

log-probability 불일치 수정 후 importance-sampling clip ratio는 0으로 줄었지만, gradient norm 폭증과 보상 정체는 계속됐다. 저자들은 문제를 더 단순화하기 위해 도구 사용이 없는 단일 단계 과제인 GSM8K로 실험을 옮겼고, 여기서도 같은 불안정성이 유지되는 것을 확인했다. 이는 ReTool 같은 에이전트형 도구 사용의 문제가 아니라, verl에서 GPT-OSS를 기본 RL로 학습하는 과정 자체에 근본적인 불일치가 있음을 시사한다. 저자들은 추론 시 vLLM이나 SGLang 같은 엔진이 처리량 최적화를 위해 사용하는 실행 경로와, 훈련 시 FSDP가 사용하는 수치 안정성 중심 실행 경로가 달라 on-policy RL이 사실상 off-policy처럼 변할 수 있다고 본다. rollout correction을 적용한 뒤에는 gradient norm이 안정화되었지만, GSM8K 보상 개선은 여전히 느렸다.

9. attention sink 미지원이 드러낸 더 깊은 병목

저자들은 attention layer를 freeze하는 추가 실험으로 원인을 더 좁혔다. attention을 얼린 경우에도 보상 흐름이 유사하게 나타나자, 학습이 주로 MoE layer에 의해 이루어지고 attention mechanism은 기대만큼 효과적으로 기여하지 못한다는 결론에 가까워졌다. 동시에 추론 엔진인 SGLang의 Triton kernel과 훈련 스택의 FSDP·FlashAttention-v2 사이에서 token-level probability mismatch가 크게 관찰되었다. GPT-OSS의 attention sink는 각 attention head마다 존재하는 학습 가능한 scalar parameter로, softmax 정규화에는 참여하지만 출력에는 직접 더해지지 않는 가상 토큰처럼 작동한다. 그런데 verl은 fsdp_worker에서 FlashAttention v2를 hard-code하고 있었고, v2는 attention sink를 지원하지 않았으며, v2와 v3 모두 sink backward pass가 기대대로 지원되지 않았다. 저자들은 vLLM FlashAttention fork의 forward pass를 활용하고 sink gradient를 계산하는 backward pass를 구현해 이 간극을 메우려 했다.

🧾 핵심 주장 / 시사점

에이전트형 RL에서 ‘온폴리시’라는 말은 알고리즘 선택만으로 보장되지 않으며, MoE routing, forward pass 횟수, 추론·훈련 커널 차이 같은 구현 세부가 실제 정책 일치성을 깨뜨릴 수 있다.
GPT-OSS 학습 문제는 단일 버그가 아니라 Harmony 포맷 지원, PPO log-probability 계산, rollout correction, attention sink kernel 지원이 연쇄적으로 맞물린 시스템 통합 문제로 나타났다.
도구 사용 과제에서 드러난 불안정성을 GSM8K 같은 단순 과제로 축소해 재현한 접근은, agentic workflow 자체와 기본 RL 학습 스택의 문제를 분리해 원인을 좁힌 실용적 디버깅 전략이다.

✅ 액션 아이템

GPT-OSS 기반 에이전트형 RL 실험을 설계할 때 rollout 경로와 학습 forward 경로가 같은 log-probability를 산출하는지 먼저 점검한다.
PPO 학습 로그에서 KL divergence, entropy, gradient norm, importance sampling ratio를 함께 추적해 온폴리시 불일치 징후를 조기에 탐지한다.
attention sink 지원 여부와 attention layer freeze 효과를 분리해 비교하며 GPT-OSS-20B와 120B 적용 가능성을 검증한다.

❓ 열린 질문

MoE 구조에서 current log-probability와 old log-probability가 어긋나는 현상을 줄이려면 verl의 어느 forward pass 경로를 우선 수정해야 할까?
rollout correction과 log-probability 대체 중 GPT-OSS의 보상 개선에 더 직접적으로 기여하는 조치는 무엇일까?
훈련·추론 실행 경로 불일치와 attention sink 미지원 중 에이전트형 RL 안정성을 더 크게 흔드는 병목은 어느 쪽일까?