Scaling reinforcement learning at Applied Compute

🖼️ 인포그래픽

Scaling reinforcement learning at Applied Compute 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Applied Compute는 기업별 독점 데이터·보상함수·평가·지속학습 루프를 기반으로 맞춤형 AI 에이전트를 훈련하며, Modal을 RL 학습 전 과정의 인프라 기반으로 활용한다.

📌 핵심 요약

Applied Compute는 DoorDash, Cognition, Mercor 같은 기업을 위해 특정 회사의 업무와 데이터에 맞춘 맞춤형 AI 에이전트를 훈련한다.
회사의 핵심 관점은 프런티어 모델이 점차 범용화될수록 차별화 지점이 사후훈련, 보상함수, 평가, 지속학습 루프로 이동한다는 것이다.
Specific Intelligence는 한 회사의 독점 데이터로 훈련되고 사용될 때마다 개선되는 AI를 뜻하며, Applied Compute는 이를 강화학습 중심으로 구현한다.
강화학습 루프는 재현 가능한 환경에서의 롤아웃, 보상함수 기반 평가, 실제 서비스 추론과 새 추적 데이터 수집이 지속적으로 맞물리는 구조다.
Modal은 복잡한 샌드박스 환경, 빠른 시작 지연시간, GPU 활용률 유지, 대규모 병렬 평가와 장애 복구를 지원해 Applied Compute의 학습 루프를 뒷받침한다.

🧩 주요 포인트

Applied Compute는 DoorDash, Cognition, Mercor 같은 기업을 위해 특정 회사의 업무와 데이터에 맞춘 맞춤형 AI 에이전트를 훈련한다.
회사의 핵심 관점은 프런티어 모델이 점차 범용화될수록 차별화 지점이 사후훈련, 보상함수, 평가, 지속학습 루프로 이동한다는 것이다.
Specific Intelligence는 한 회사의 독점 데이터로 훈련되고 사용될 때마다 개선되는 AI를 뜻하며, Applied Compute는 이를 강화학습 중심으로 구현한다.
강화학습 루프는 재현 가능한 환경에서의 롤아웃, 보상함수 기반 평가, 실제 서비스 추론과 새 추적 데이터 수집이 지속적으로 맞물리는 구조다.
Modal은 복잡한 샌드박스 환경, 빠른 시작 지연시간, GPU 활용률 유지, 대규모 병렬 평가와 장애 복구를 지원해 Applied Compute의 학습 루프를 뒷받침한다.

🧠 상세 정리

1. Specific Intelligence라는 문제의식

Applied Compute는 DoorDash, Cognition, Mercor 같은 기업을 대상으로 맞춤형 AI 에이전트를 훈련하는 회사다. 창업팀은 OpenAI의 Codex와 o1 작업에서 나온 배경을 갖고 있으며, 프런티어 모델 자체가 점점 범용화될수록 경쟁력은 모델 이후의 훈련 단계로 이동한다고 본다. 이들이 말하는 Specific Intelligence는 특정 기업을 위해 만들어지고, 그 기업의 독점 데이터로 학습되며, 실제 사용 과정에서 계속 개선되는 AI다. 핵심은 범용 모델을 그대로 쓰는 것이 아니라 각 조직이 자신의 보상함수, 평가 체계, 지속학습 루프를 소유하는 데 있다.

2. 강화학습으로 기업별 에이전트를 훈련하는 방식

Applied Compute의 핵심 훈련 방식은 강화학습이다. 모델이 재현 가능한 환경 안에서 같은 과제를 여러 번 시도하고, 각 시도가 보상함수에 따라 점수화되며, 그 결과에 맞춰 가중치가 원하는 행동 쪽으로 업데이트된다. DoorDash의 경우 사진으로 찍힌 식당 메뉴를 입력받아 실제 운영에 쓰이는 구조화된 매장 정보를 만들어내는 모델을 훈련했다. Cognition의 경우 개발자가 커밋을 저장한 직후 몇 초 안에 문제를 찾아내는 맞춤형 버그 탐지 에이전트를 만드는 방향이었다. 사례들은 Specific Intelligence가 추상적 개념이 아니라 기업의 실제 업무 흐름에 직접 맞춰지는 훈련 방식임을 보여준다.

3. RL 루프를 구성하는 세 가지 인프라 축

본문은 일반적인 강화학습 훈련 루프를 롤아웃, 평가, 추론이라는 세 구성요소로 나눈다. 롤아웃은 에이전트가 재현 가능한 환경 안에서 과제를 시도하는 단계이고, 평가는 각 시도를 보상함수에 따라 채점하는 단계다. 추론은 훈련된 모델을 실제 서비스에서 제공하면서 새로운 실행 흔적을 수집하는 역할을 맡는다. 이 세 단계는 서로 계속 맞물려 돌아가야 하지만 필요한 인프라 성격은 다르다. 롤아웃은 순간적으로 몰리는 CPU 작업이 많고, 평가는 대규모 병렬 처리가 필요하며, 추론은 GPU에 최적화된 접근이 중요하다. Applied Compute는 여러 샌드박스와 실행 제공자를 검토한 뒤 각 단계에 필요한 기본 요소를 제공하면서 경계 비용을 낮게 유지하는 선택지로 Modal을 택했다.

4. 현실과 가까운 훈련 환경의 중요성

강화학습에서는 모델이 수천 번의 시도를 병렬로 수행하며, 각 시도는 깨끗하고 일시적인 환경 안에서 진행된다. Applied Compute가 다루는 환경은 단순한 테스트 컨테이너가 아니라 Salesforce, Slack, 내부 API 같은 실제 생산 시스템을 충분히 비슷하게 흉내 내는 무거운 환경일 수 있다. Patil은 에이전트가 훈련되는 환경이 실제로 일을 수행할 환경과 같아야 한다고 강조한다. 배포된 RL 시스템에서 훈련 환경과 테스트 또는 실제 환경 사이의 불일치는 반복적으로 나타나는 실패 원인으로 제시된다. Modal Sandboxes는 빠른 시작, 파일시스템과 네트워크 격리, 재현 가능한 스냅샷 의미론을 제공해 복잡한 생산 시스템 모의 환경을 만들 수 있게 한다. 그 결과 엔지니어링 노력은 플랫폼 제약을 우회하는 데 쓰이기보다 환경 충실도를 높이는 데 집중될 수 있다.

5. 지연시간과 GPU 활용률을 좌우하는 샌드박스 성능

롤아웃 단계에서는 추론과 샌드박스 실행이 동시에 필요하다. 훈련 실행 중 수천 개의 샌드박스가 병렬로 올라가고, 한 시간에서 세 시간까지 계속 작업을 수행하는 상황에서는 시작 지연시간이 곧 추론 측 GPU 활용률로 이어진다. 본문은 GPU 시간이 루프에서 지배적인 비용이며, 샌드박스 초기화에 걸리는 밀리초가 곧 가속기가 유휴 상태로 머무는 시간이라고 설명한다. Patil은 CPU 쪽 작업을 최대한 빠르게 만드는 것이 중요하다고 말한다. Modal의 사전 구축되고 적극적으로 캐시된 컨테이너 이미지와 1초 미만의 콜드 스타트는 훈련 루프가 CPU 병목이 아니라 GPU 중심으로 돌아가도록 돕는다. 이는 본문이 serious RL workload에 필요한 운영 상태로 제시하는 조건이다.

6. 대규모 평가와 장애 복구를 위한 안정성

각 롤아웃은 단위 테스트, 전문가가 작성한 루브릭, 또는 LLM-as-judge 실행을 통해 채점되어야 한다. 같은 평가 계층은 생산 환경에서도 다시 사용되며, 수천 개의 동시 실행 흔적에 대해 실제 에이전트 행동을 점수화한다. 이 작업은 대규모 병렬 CPU 연산을 필요로 하며, Applied Compute는 Modal Functions를 이용해 전용 클러스터 없이도 저렴한 서버리스 팬아웃을 활용한다. 그런 수준의 동시성에서는 개별 실패가 불가피하므로 중요한 것은 실패 자체를 없애는 것이 아니라 플랫폼이 얼마나 빠르게 회복하느냐다. Modal의 자동 재시도, 호출별 격리, 관리형 스케줄링은 평가와 롤아웃 계층이 장시간의 동시 실행 속에서도 계속 움직이도록 한다.

7. 기업별 지능형 스택으로 향하는 전망

본문의 마지막은 모든 회사가 과거 소프트웨어 스택을 만들었던 것처럼 자신만의 지능형 스택을 구축하게 될 것이라는 Patil의 전망으로 이어진다. 그는 프런티어 모델이 사라지는 것이 아니라, 기업들이 사후훈련, 지속학습 루프, 평가, 독점 데이터 파이프라인을 더 많이 직접 소유하게 될 것이라고 본다. Applied Compute는 고객별로 연구자를 붙이고, 조직의 판단을 보상함수에 인코딩하며, 결과 모델이 단순한 도구가 아니라 조직의 구성원처럼 행동할 때까지 루프를 반복하는 방식을 지향한다. Modal은 이 비전을 빠르게 실행할 수 있게 하는 클라우드 기반으로 묘사된다. 수천 개의 병렬 롤아웃을 GPU 중심으로 유지할 만큼 빠르고, 복잡한 생산 시스템 모의 환경을 호스팅할 만큼 유연하며, 장시간 동시 실행에서도 평가 계층을 유지할 만큼 회복력이 있다는 점이 결론의 핵심이다.

🧾 핵심 주장 / 시사점

본문의 핵심 차별화 논리는 더 큰 범용 모델 자체보다 기업이 보유한 보상함수, 평가, 데이터, 지속학습 루프가 경쟁 우위가 된다는 데 있다.
강화학습 에이전트의 품질은 모델 성능만이 아니라 실제 업무 환경을 얼마나 충실하고 재현 가능하게 모사하느냐에 크게 좌우된다.
RL 인프라에서는 GPU만 빠른 것이 충분하지 않으며, 샌드박스 시작 지연시간·CPU 병렬 평가·자동 복구가 전체 학습 루프의 경제성을 결정한다.

✅ 액션 아이템

기업용 에이전트 학습 루프에서 보상함수, 평가 루브릭, 독점 데이터, 시뮬레이션 환경 중 어떤 요소가 병목인지 먼저 분리한다.
RL 롤아웃을 설계할 때 GPU 학습 시간뿐 아니라 CPU 기반 평가, 샌드박스 시작 지연, 실패 재시도, 로그 추적 비용을 함께 산정한다.
Modal Functions와 Sandboxes 같은 서버리스 실행 계층을 사용할 경우, 수천 개 병렬 롤아웃에서 격리·복구·평가 재현성이 유지되는지 테스트한다.