Trading off compute in training and inference

🖼️ 인포그래픽

Trading off compute in training and inference 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Epoch AI는 훈련 컴퓨트와 추론 컴퓨트가 일정 범위에서 서로 대체될 수 있으며, 특히 대규모 배포 모델에서는 추론 비용 최적화와 고성능 소규모 사용 사이의 균형이 중요하다고 분석한다.

📌 핵심 요약

현재 머신러닝 시스템의 성능은 주로 훈련 과정에 투입된 컴퓨트와 강하게 연결되어 있지만, 이미 훈련된 모델도 추론 시 더 많은 컴퓨트를 쓰면 성능을 높일 수 있고, 반대로 성능을 일정하게 유지하면서 추론 비용을 줄이는 기법도 존재한다.
저자들은 모델 스케일링, Monte Carlo Tree Search, pruning, resampling, chain of thought라는 다섯 가지 기법을 검토해, 대부분의 과제에서 약 1 OOM 안팎의 훈련·추론 컴퓨트 교환이 가능하고, 순차적 추론이나 하위 문제 분해가 가능한 과제에서는 더 큰 교환이 가능하다고 본다.
특히 해답을 저렴하게 검증할 수 있고 실패 비용이 낮은 코딩 문제나 형식수학 증명 같은 과제에서는 많은 후보를 병렬로 생성해 검증하는 방식으로 추론 컴퓨트를 5~6 OOM 늘리고 훈련 컴퓨트를 3~4 OOM 줄이는 극단적 교환이 관찰되었다.
반대 방향으로는 pruning이나 overtraining처럼 훈련 컴퓨트를 더 쓰는 대신 추론 1회당 비용을 낮추는 전략이 가능하며, 대규모 상용 배포에서는 전체 생애 추론 비용이 훈련 비용을 크게 넘을 수 있기 때문에 이런 최적화의 경제적 유인이 크다.
정책적으로 중요한 함의는 공개적으로 대규모 제공되는 모델이 낮은 추론 비용에 맞춰져 있더라도, 같은 기반 모델에 더 많은 추론 컴퓨트를 투입한 내부용 또는 소수 고객용 버전은 더 높은 능력을 보일 수 있으므로 위험한 AI 능력의 확산을 평가할 때 이 가능성을 고려해야 한다는 점이다.

🧩 주요 포인트

현재 머신러닝 시스템의 성능은 주로 훈련 과정에 투입된 컴퓨트와 강하게 연결되어 있지만, 이미 훈련된 모델도 추론 시 더 많은 컴퓨트를 쓰면 성능을 높일 수 있고, 반대로 성능을 일정하게 유지하면서 추론 비용을 줄이는 기법도 존재한다.
저자들은 모델 스케일링, Monte Carlo Tree Search, pruning, resampling, chain of thought라는 다섯 가지 기법을 검토해, 대부분의 과제에서 약 1 OOM 안팎의 훈련·추론 컴퓨트 교환이 가능하고, 순차적 추론이나 하위 문제 분해가 가능한 과제에서는 더 큰 교환이 가능하다고 본다.
특히 해답을 저렴하게 검증할 수 있고 실패 비용이 낮은 코딩 문제나 형식수학 증명 같은 과제에서는 많은 후보를 병렬로 생성해 검증하는 방식으로 추론 컴퓨트를 5~6 OOM 늘리고 훈련 컴퓨트를 3~4 OOM 줄이는 극단적 교환이 관찰되었다.
반대 방향으로는 pruning이나 overtraining처럼 훈련 컴퓨트를 더 쓰는 대신 추론 1회당 비용을 낮추는 전략이 가능하며, 대규모 상용 배포에서는 전체 생애 추론 비용이 훈련 비용을 크게 넘을 수 있기 때문에 이런 최적화의 경제적 유인이 크다.
정책적으로 중요한 함의는 공개적으로 대규모 제공되는 모델이 낮은 추론 비용에 맞춰져 있더라도, 같은 기반 모델에 더 많은 추론 컴퓨트를 투입한 내부용 또는 소수 고객용 버전은 더 높은 능력을 보일 수 있으므로 위험한 AI 능력의 확산을 평가할 때 이 가능성을 고려해야 한다는 점이다.

🧠 상세 정리

1. 핵심 문제의식: 훈련 컴퓨트만으로 성능을 설명할 수 없다

글은 머신러닝 시스템의 성능이 훈련 컴퓨트와 밀접하게 연결되어 있다는 기존 관점을 출발점으로 삼는다. 하지만 저자들은 훈련이 끝난 모델이라도 추론 단계에서 더 많은 계산을 투입하면 능력을 보강할 수 있고, 반대로 추론 비용을 줄이는 대신 성능을 어느 정도 포기하거나 추가 훈련 비용을 감수할 수도 있다고 설명한다. 예시로는 모델을 가지치기해 추론 비용을 줄이는 방식과, chain of thought처럼 더 긴 추론 과정을 유도해 추론 비용을 늘리는 방식이 제시된다. 따라서 성능은 단순히 훈련 컴퓨트의 함수가 아니라, 훈련 시점과 추론 시점에 계산 자원을 어떻게 배분하느냐의 문제로 확장된다.

2. 다섯 가지 기법이 보여주는 컴퓨트 교환 가능성

저자들은 모델 스케일링, Monte Carlo Tree Search, pruning, resampling, chain of thought라는 다섯 가지 구체적 기법을 근거로 훈련 컴퓨트와 추론 컴퓨트의 교환 관계를 분석한다. 대부분의 현재 모델, 예를 들어 GPT-4와 비교했을 때, 특정 사실 지식이나 매우 구체적인 기술을 요구하지 않는 언어 과제에서는 추론당 컴퓨트를 1~2 OOM 늘려 약 1 OOM의 훈련 컴퓨트를 절약하면서 성능을 유지할 수 있다고 본다. 순차적 추론 요소가 있거나 쉬운 하위 과제로 분해 가능한 과제에서는 추론 컴퓨트를 2~3 OOM 늘리는 대신 약 2 OOM의 훈련 컴퓨트를 아낄 수 있다고 제시한다. 다만 이러한 수치는 일반 법칙이라기보다 기법과 영역에 따라 달라지는 경험적 추정으로 제시된다.

3. 저렴한 검증이 가능한 과제에서 나타나는 큰 폭의 교환

가장 큰 교환 폭은 해답을 저렴하게 검증할 수 있고, 많은 실패 시도가 큰 비용을 만들지 않는 과제에서 나타난다. 글은 자동 테스트를 통과하는 프로그램 작성이나 형식수학 명제 증명처럼, 후보 해답을 많이 만든 뒤 유효한 해답을 고르는 구조를 예로 든다. 이런 경우에는 추론 단계에서 수많은 시도를 병렬로 수행할 수 있으므로, 추론 컴퓨트를 5~6 OOM 늘리는 대신 훈련 컴퓨트를 3~4 OOM 줄이는 효과가 관찰되었다고 설명한다. 저자들은 이런 특성을 가진 경제적으로 중요한 과제가 많지는 않을 것으로 보지만, 소수의 중요한 사례가 존재할 가능성은 열어 둔다.

4. 반대 방향: 더 많은 훈련으로 추론 비용을 낮추는 전략

글은 추론 컴퓨트를 늘려 훈련 컴퓨트를 줄이는 방향뿐 아니라, 훈련 컴퓨트를 더 써서 추론 컴퓨트를 줄이는 방향도 다룬다. 예를 들어 overtraining을 사용하면 Chinchilla 기준 모델과 같은 성능을 유지하면서 추론 컴퓨트를 1 OOM 줄이기 위해 훈련 컴퓨트를 2 OOM 더 쓸 수 있다고 설명한다. pruning 역시 성능을 유지하면서 추론 비용을 낮추는 대표적 기법으로 제시된다. 저자들은 대부분의 과제에서 추론당 컴퓨트를 최소 약 1 OOM 줄이는 대신 훈련 컴퓨트를 1~2 OOM 더 쓰는 교환이 가능할 것으로 예상한다.

5. 단일 추론 비용과 전체 추론 비용의 구분

저자들은 훈련 컴퓨트와 추론 컴퓨트의 관계를 이해하려면 단일 추론 비용과 모델 수명 동안 발생하는 전체 추론 비용을 구분해야 한다고 강조한다. 단일 추론을 실행하는 데 드는 비용은 훈련 비용보다 훨씬 작으며, 대략적으로는 훈련 컴퓨트의 제곱근에 가깝다는 경험칙이 제시된다. 그러나 실제로 배포된 모델은 매우 많은 수의 추론을 수행하므로, 모델의 전체 생애 동안 발생하는 추론 비용은 훈련 비용을 크게 초과할 수 있다. 이 차이 때문에 소규모 평가나 내부 사용과 대규모 상용 배포에서는 최적의 컴퓨트 배분이 달라진다.

6. 기법 결합의 가능성과 한계

여러 기법은 결합될 수 있으며, 저자들은 적어도 일부 사례에서 두 기법의 효과가 개별 효과의 합만큼 커질 수 있음을 확인했다고 말한다. 예를 들어 각 기법이 1 OOM의 절약을 가능하게 한다면, 두 기법을 함께 사용해 2 OOM의 절약을 얻는 경우가 있을 수 있다는 뜻이다. 그러나 저자들은 이것이 일반적인 상황은 아니라고 본다. 여러 기법이 같은 작동 메커니즘에 의존하면 서로 간섭할 수 있기 때문에, 실제로는 매우 다른 방식으로 작동하는 기법들만 효과적으로 결합될 가능성이 크며, 조합을 통한 절약은 대체로 2~3 OOM 정도가 상한일 것으로 예상한다.

7. 현재 모델들은 교환 곡선의 어디에 있는가

저자들은 현재 모델들이 훈련·추론 컴퓨트 교환 곡선의 어느 위치에 있는지가 함의를 판단하는 데 중요하다고 말한다. GPT-3, PaLM, Chinchilla 같은 이전 세대 대형 언어 모델은 결합된 교환 관계에서 중간 지점에 가까울 것으로 묘사된다. 이 모델들은 pruning이나 overtraining을 사용하지 않으므로 해당 기법 관점에서는 높은 추론 컴퓨트 쪽 극단에 있지만, chain of thought나 search를 사용하지 않는다는 점에서는 낮은 추론 컴퓨트 쪽 극단에 놓인다. 최신 세대 모델에 대해서는 정보가 적지만, 저자들은 상용 배포의 경제적 유인을 근거로 이들이 결합된 교환 관계에서 낮은 추론 비용 쪽에 더 가까울 가능성이 있다고 본다.

8. 대규모 배포와 정책적 함의

대규모로 배포되는 모델은 많은 추론 요청을 처리해야 하므로 추론 비용을 최소화할 강한 경제적 압력을 받는다. 따라서 AI 기업이나 오픈소스 집단이 공개적으로 제공하는 모델은 추론을 싸게 실행하도록 최적화될 가능성이 크다. 하지만 같은 모델 계열이라도 더 많은 추론 컴퓨트를 투입하면 더 높은 능력을 낼 수 있는 버전이 내부 용도나 소수 외부 고객에게 제공될 수 있다. 저자들은 위험한 AI 능력의 발전이나 확산을 통제하려는 정책 제안이 공개 모델의 표준 사용 방식만 보아서는 부족하며, 추가 추론 컴퓨트를 통해 더 강한 능력이 나타날 수 있다는 가능성을 고려해야 한다고 결론짓는다.

🧾 핵심 주장 / 시사점

훈련 컴퓨트는 모델 능력의 핵심 요인이지만, 실제 배포 환경에서는 추론 컴퓨트가 성능과 비용을 함께 좌우하는 별도의 레버로 작동한다.
대규모 공개 서비스 모델은 낮은 추론 비용에 맞춰 최적화될 가능성이 크므로, 공개 사용자가 보는 성능이 해당 모델 계열의 최대 능력을 그대로 대표하지 않을 수 있다.
자동 검증이 가능한 과제에서는 많은 시도를 생성해 고르는 방식이 특히 강력하므로, 코딩이나 형식적 증명처럼 검증 구조가 있는 영역은 추론 컴퓨트 증가의 효과를 별도로 평가해야 한다.