Reinforcement learning is an infrastructure problem
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
Modal은 LLM 사후학습용 강화학습의 병목이 알고리즘 자체보다 다중 노드 학습, 롤아웃, 샌드박스 실행을 안정적으로 연결하는 인프라에 있다고 주장한다.
📌 핵심 요약
- 글은 LLM 사후학습에서 강화학습 수요가 빠르게 늘었지만, 실제 팀들이 부딪히는 핵심 병목은 학습 알고리즘보다 인프라라고 설명한다.
- 강화학습 루프는 대규모 모델 학습 엔진, 고성능 추론 기반 롤아웃, 대량의 격리 실행 환경이라는 세 부분으로 나뉘며, 각각이 독립적으로 어려운 인프라 문제다.
- 더 큰 오픈 웨이트 모델을 파인튜닝하는 흐름이 늘면서 다중 GPU 노드 학습이 기본 조건이 되었고, 특히 트레이너와 롤아웃 엔진 사이의 가중치 동기화가 큰 병목으로 떠올랐다.
- 팀들이 반복적으로 막히는 지점은 글루 코드 유지, 클러스터 대기 시간, GPU 저활용이며, Modal은 RDMA 연결 클러스터, 빠른 컨테이너 부팅, 샌드박스 확장성으로 이를 줄일 수 있다고 말한다.
- Modal은 폐쇄형 학습 서비스보다 오픈소스 학습 프레임워크와 인프라 조합을 선택했으며, 빠르게 변하는 RL 생태계에서는 사용자가 학습 루프를 직접 통제할 수 있어야 한다고 강조한다.
🧩 주요 포인트
- 글은 LLM 사후학습에서 강화학습 수요가 빠르게 늘었지만, 실제 팀들이 부딪히는 핵심 병목은 학습 알고리즘보다 인프라라고 설명한다.
- 강화학습 루프는 대규모 모델 학습 엔진, 고성능 추론 기반 롤아웃, 대량의 격리 실행 환경이라는 세 부분으로 나뉘며, 각각이 독립적으로 어려운 인프라 문제다.
- 더 큰 오픈 웨이트 모델을 파인튜닝하는 흐름이 늘면서 다중 GPU 노드 학습이 기본 조건이 되었고, 특히 트레이너와 롤아웃 엔진 사이의 가중치 동기화가 큰 병목으로 떠올랐다.
- 팀들이 반복적으로 막히는 지점은 글루 코드 유지, 클러스터 대기 시간, GPU 저활용이며, Modal은 RDMA 연결 클러스터, 빠른 컨테이너 부팅, 샌드박스 확장성으로 이를 줄일 수 있다고 말한다.
- Modal은 폐쇄형 학습 서비스보다 오픈소스 학습 프레임워크와 인프라 조합을 선택했으며, 빠르게 변하는 RL 생태계에서는 사용자가 학습 루프를 직접 통제할 수 있어야 한다고 강조한다.
🧠 상세 정리
1. 강화학습의 현재 병목은 인프라라는 문제 제기
글은 LLM을 사후학습하기 위한 강화학습이 Modal에서 빠르게 확산되고 있다는 관찰에서 출발한다. Modal은 연구소부터 기존 기업까지 다양한 팀이 파운데이션 모델에서 높은 비용 대비 성능을 얻도록 학습 시스템을 구축하는 과정을 도왔다고 설명한다. 이 경험을 통해 저자는 현재 RL의 가장 큰 제약이 알고리즘 아이디어나 모델 자체가 아니라, 대규모로 안정적으로 돌릴 수 있는 인프라라는 결론에 이르렀다. 따라서 글의 목적은 RL 사후학습을 규모 있게 운영하면서 배운 점과, 그 시행착오를 줄이기 위해 만든 오픈소스 라이브러리의 배경을 공유하는 데 있다.
2. RL 학습 루프를 이루는 세 가지 인프라 문제
저자는 RL 학습 루프를 세 부분으로 나누어 설명한다. 첫째는 수십억에서 수조 개 파라미터 규모의 모델에 대해 순전파, 역전파, 가중치 업데이트를 안정적으로 수행하는 학습 엔진이다. 둘째는 최신 GPU 한 장 또는 수백 장 위에서 대형 모델을 매우 빠르게 서빙하며 롤아웃을 생성하는 고성능 추론 엔진이다. 셋째는 모델 정책이 행동으로 실행되는 격리 환경으로, 수천에서 수백만 개 컨테이너가 롤아웃 속도와 맞는 일정한 처리율로 동시에 동작해야 한다. 글은 이 세 요소가 모두 별도의 난제이며, 어느 하나만 약해도 전체 RL 시스템의 성능과 안정성이 흔들린다고 본다.
3. 오픈 웨이트 모델 확산과 다중 노드 학습의 필요성
지난 1년 사이 더 많은 팀이 오픈 웨이트 모델을 파인튜닝하고, 단순한 데모가 아니라 실제 프로덕션 AI 제품을 출시하는 단계로 이동했다고 글은 말한다. 동시에 프런티어 독점 모델의 총 토큰 비용은 테스트 시점 컴퓨트 의존 증가로 인해 정체되거나 오르고 있다고 설명한다. 이런 상황에서 NVIDIA, Google, DeepSeek, Kimi 등 여러 조직이 허용적인 라이선스의 우수한 모델을 공개하는 점은 팀들에게 기회가 된다. 작은 모델도 여전히 파인튜닝 잠재력이 있지만, 복잡한 작업에서는 더 큰 모델이 높은 성능 상한, 더 나은 데이터 효율, 더 낮은 catastrophic forgetting을 제공하는 경향이 있다고 글은 정리한다.
4. 가중치 동기화와 전송 속도가 만드는 비용 차이
큰 모델을 쓰면 가중치, 그래디언트, 옵티마이저 상태, KV 캐시를 담기 위한 VRAM과 이를 옮기는 대역폭 요구가 함께 커진다. 학습이 여러 GPU 노드에 걸치면 트레이너와 롤아웃 엔진 사이의 가중치 동기화가 병목이 되며, LoRA, 비동기 RL, 트레이너와 롤아웃의 colocated 구성 같은 기법이 압력을 줄일 수 있지만 각각 다른 트레이드오프를 가진다. 글은 클러스터가 비싸기 때문에 유휴 시간이 초 단위로 비용을 발생시킨다고 강조한다. 같은 클러스터 안에서 RDMA 전송은 TCP 대비 학습을 크게 개선할 수 있으며, 표에서는 여러 모델 크기에서 RDMA가 가중치 업데이트 시간을 초 단위에서 밀리초 또는 훨씬 짧은 초 단위로 줄이는 사례를 제시한다.
5. 분리형 RL에서 델타 압축이 주는 보완 효과
글은 disaggregated RL, 즉 학습과 롤아웃 등이 분리된 구성에서는 RDMA가 연결되지 않은 경우 모델 가중치 업데이트 시간이 느려질 수 있다고 설명한다. 이때 델타 압축은 전체 가중치를 매번 옮기는 부담을 줄여 경험을 개선하는 방법으로 제시된다. 예를 들어 WAN 인터넷 링크가 10Gbps이고 델타 압축이 가중치 업데이트 크기의 98%를 절감한다는 가정에서, Qwen3 8B는 전체 전송 12.8초가 0.26초로 줄어드는 식의 비교가 나온다. GLM 4.7이나 Kimi K2.6처럼 훨씬 큰 모델에서도 전체 전송은 수백 초가 걸릴 수 있지만, 델타 압축을 쓰면 한 자릿수 초 수준으로 줄어드는 예시가 제시된다.
6. 팀들이 반복적으로 막히는 세 가지 지점
저자는 실제 팀들이 같은 세 문제에 계속 발목을 잡힌다고 말한다. 첫째는 글루 코드 유지다. 트레이너 노드를 어떻게 확보하고 준비할지, 학습 프레임워크를 어떻게 부트스트랩할지, 샌드박스 버퍼와 롤아웃 버퍼를 어디에 둘지, 추론 엔진이 롤아웃 노드를 망가뜨리면 어떻게 할지 같은 문제가 학습 코드 안으로 밀려 들어온다. 둘째는 클러스터 시간을 기다리는 큐잉 문제로, 긴 대기 뒤에 NCCL 설정이나 YAML 값 하나 때문에 즉시 실패하면 반복 속도가 크게 떨어진다. 셋째는 환경 실행이 GPU를 막아 고가의 GPU를 충분히 활용하지 못하는 문제이며, 저자는 이 모두가 전형적인 RL 교과서 문제가 아니라 더 나은 인프라로 풀어야 할 문제라고 본다.
7. Modal이 제시하는 추상화와 클러스터 실행 방식
Modal은 인프라와 코드를 묶어 글루 코드 부담을 줄인다고 설명한다. 예시 코드에서는 H100 8장 GPU 함수, 재시도 설정, 4개 컨테이너 규모의 RDMA 연결 clustered 함수를 몇 줄의 Python 코드로 지정한다. 글은 특히 rdma=True라는 단일 불리언 인자가 모델 학습자가 직접 다루기 어려운 복잡성을 숨긴다고 말하며, 추상화의 목적은 모호해지는 것이 아니라 더 정확하게 말할 수 있는 새로운 의미 수준을 만드는 것이라는 인용을 덧붙인다. 동시에 Modal이 모듈형 플랫폼이므로 사용자가 학습 루프의 특정 구성요소를 직접 가져오는 것도 가능하다고 설명한다.
8. 대기 시간 단축과 GPU 저활용 문제
클러스터를 실행할 수 있는 코드가 있어도 실제 컴퓨트 용량을 기다려야 하면 학습 반복은 느려진다. 글은 현재 컴퓨트 부족 상황에서 학습 작업을 시작해도 몇 시간씩 큐에서 기다리는 경험이 흔하며, 예약된 뒤 설정 오류로 즉시 실패하면 인간과 에이전트 모두의 엔지니어링 속도가 떨어진다고 설명한다. Modal은 멀티테넌시의 경제성과 빠른 컨테이너 부팅 기술을 통해 사용자가 몇 시간이나 며칠이 아니라 몇 분 안에 B200 클러스터로 갈 수 있다고 주장한다. 이어 GPU를 절대 막지 않아야 한다는 원칙 아래, 롤아웃 환경이 느리거나 샌드박스 준비가 부족하면 GPU가 유휴 상태가 되는 문제가 마지막 큰 장애물로 제시된다.
9. 샌드박스 버퍼 크기와 대규모 환경 실행
GPU를 계속 먹여 살리려면 샌드박스 버퍼, 즉 롤아웃을 위해 미리 준비된 환경 풀의 크기를 적절히 잡아야 한다. 버퍼가 너무 크면 유휴 컴퓨트 비용이 커지고, 너무 작으면 매 롤아웃마다 샌드박스 시작 시간이 GPU를 막는다. Modal Sandboxes는 수백 밀리초 단위로 시작하지만, 저자는 밀리초도 중요하므로 버퍼 크기는 여전히 최적화 대상이라고 강조한다. 일반적인 기준으로는 각 추론 스텝에서 새 행동 수가 최대 배치 크기 수준이고 대개 그보다 적으므로, 큐잉 없이 행동을 즉시 처리할 수 있도록 에피소드 또는 롤아웃당 최소 하나의 샌드박스를 유지해야 한다고 설명한다. 또한 많은 환경을 돌리면 더 많은 실패 모드를 관찰하므로 오류율과 장기 작업의 실패 비용도 함께 고려해야 한다.
10. 오픈소스 프레임워크에 베팅하는 이유
글은 현재 RL에서 성공하는 팀들이 대체로 자체 프레임워크를 처음부터 만들기보다 slime, miles, verl, OpenRLHF 같은 오픈소스 학습 프레임워크에서 출발한다고 말한다. 이 프레임워크들은 실제 프런티어 규모 학습 실행으로 검증되었고, advantage estimation, KV 캐시 재사용, 분산 가중치 동기화 같은 미묘한 부분이 대규모 GPU 시간으로 스트레스 테스트되었다는 이유가 제시된다. Modal은 GLM 4.7과 Kimi K2.6 같은 대형 모델에 대해 저랭크 적응과 전체 파인튜닝 모두를 지원하고, slime에 델타 압축을 추가하는 등 개선 사항을 오픈소스 프레임워크에 upstream하고 있다고 설명한다. 폐쇄형 관리형 학습 서비스를 만들 수도 있었지만, RL 생태계가 너무 빠르게 변하기 때문에 사용자가 학습 프레임워크 코드를 직접 통제하고 필요한 기능을 구현할 수 있어야 한다는 것이 글의 결론이다.
🧾 핵심 주장 / 시사점
- RL 사후학습의 경쟁력은 모델 선택만이 아니라 가중치 동기화, 롤아웃 처리율, 환경 실행 확장성을 얼마나 통합적으로 최적화하느냐에 달려 있다는 점이 핵심입니다.
- 다중 노드 학습이 기본값이 되는 순간, 작은 설정 오류나 큐 대기, 샌드박스 병목이 곧바로 GPU 비용과 실험 속도 손실로 이어지므로 인프라 추상화의 품질이 연구 생산성을 좌우합니다.
- 오픈소스 학습 프레임워크와 모듈형 인프라를 결합하는 접근은 빠르게 변하는 RL 생태계에서 폐쇄형 서비스보다 유연성을 확보하려는 전략으로 읽힙니다.
✅ 액션 아이템
- RL 사후학습 루프를 학습 엔진, 추론 롤아웃, 격리 실행 환경으로 나눠 각 병목과 책임자를 분리한다.
- 다중 GPU 노드 학습과 트레이너·롤아웃 엔진 간 가중치 동기화 비용을 측정해 GPU 저활용 원인을 먼저 확인한다.
- Modal식 RDMA 클러스터, 빠른 컨테이너 부팅, 샌드박스 확장성이 현재 RL 실험 반복 속도를 얼마나 줄일 수 있는지 작은 워크로드로 검증한다.
❓ 열린 질문
- 강화학습 성능 병목이 알고리즘보다 인프라에 있을 때 팀의 투자 우선순위는 어떻게 바뀌어야 할까?
- 오픈소스 학습 프레임워크와 관리형 폐쇄 서비스 중 빠르게 변하는 RL 생태계에는 어느 쪽이 더 유리할까?
- 롤아웃 샘플 생성과 가중치 동기화가 커질수록 실험 설계는 어떤 방식으로 단순화되어야 할까?