How predictable is language model benchmark performance?

🖼️ 인포그래픽

How predictable is language model benchmark performance? 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Epoch AI는 11개 최신 언어모델 아키텍처와 36개 모델 크기의 데이터를 분석해, 벤치마크 전체 성능은 컴퓨트 스케일링만으로도 어느 정도 예측 가능하지만 개별 과제 성능은 훨씬 변동성이 크다고 결론낸다.

📌 핵심 요약

이 글은 대규모 언어모델의 벤치마크 성능이 모델 규모와 데이터 규모, 그리고 이를 통해 환산한 최적 스케일 컴퓨트와 어떤 관계를 보이는지 분석한다.
연구진은 BIG-Bench, BIG-Bench Hard, MMLU 데이터를 사용해 5자릿수 규모의 컴퓨트 스케일 변화에 걸친 11개 아키텍처와 36개 모델 크기의 성능을 비교했다.
전체 벤치마크 성능은 스케일이 커질수록 비교적 매끄러운 S-커브 형태를 보이며, sigmoid 적합을 사용한 백테스트에서 한 자릿수 규모의 외삽에 대해 평균 절대오차가 6%포인트 수준으로 나타났다.
다만 성능 예측에는 일정 수준의 기존 진전이 필요하며, 낮은 성능 구간의 모델 데이터만으로 급격한 성능 상승 구간을 멀리 예측하는 것은 어렵다.
개별 벤치마크 과제는 전체 지표보다 훨씬 예측이 어렵고 오차 분포도 두꺼운 꼬리를 보이지만, 무작위 예측이나 단순 과제 평균 기준선보다는 유의미하게 더 잘 예측된다.

🧩 주요 포인트

이 글은 대규모 언어모델의 벤치마크 성능이 모델 규모와 데이터 규모, 그리고 이를 통해 환산한 최적 스케일 컴퓨트와 어떤 관계를 보이는지 분석한다.
연구진은 BIG-Bench, BIG-Bench Hard, MMLU 데이터를 사용해 5자릿수 규모의 컴퓨트 스케일 변화에 걸친 11개 아키텍처와 36개 모델 크기의 성능을 비교했다.
전체 벤치마크 성능은 스케일이 커질수록 비교적 매끄러운 S-커브 형태를 보이며, sigmoid 적합을 사용한 백테스트에서 한 자릿수 규모의 외삽에 대해 평균 절대오차가 6%포인트 수준으로 나타났다.
다만 성능 예측에는 일정 수준의 기존 진전이 필요하며, 낮은 성능 구간의 모델 데이터만으로 급격한 성능 상승 구간을 멀리 예측하는 것은 어렵다.
개별 벤치마크 과제는 전체 지표보다 훨씬 예측이 어렵고 오차 분포도 두꺼운 꼬리를 보이지만, 무작위 예측이나 단순 과제 평균 기준선보다는 유의미하게 더 잘 예측된다.

🧠 상세 정리

1. 연구의 목적과 데이터 범위

Epoch AI는 언어모델 벤치마크 성능이 규모 확장만으로 얼마나 예측 가능한지를 조사한다. 분석 대상은 최근의 11개 모델 아키텍처와 36개 모델 크기이며, 컴퓨트 스케일은 다섯 자릿수 범위에 걸쳐 있다. 벤치마크로는 BIG-Bench와 MMLU가 사용되며, 전체 성능과 개별 과제 성능을 나누어 살핀다. 글의 핵심 질문은 손실 예측에 쓰이는 스케일링 법칙이 실제 다운스트림 벤치마크 성능 예측에도 어느 정도 연결될 수 있는가이다.

2. 손실과 스케일 컴퓨트를 연결하는 방법

연구진은 먼저 모델 크기 N과 학습 데이터 크기 D를 바탕으로 스케일링 법칙을 사용해 각 모델의 손실을 추정한다. 이 손실은 다시 최적의 N과 D 조합으로 해당 손실을 달성하는 데 필요한 컴퓨트, 즉 scaled compute로 표현될 수 있다. 이렇게 하면 서로 다른 구조와 크기의 모델들을 하나의 공통 축 위에 놓고 비교할 수 있다. Figure 1은 분석에 포함된 모델들의 손실, 모델 크기, 학습 데이터 크기, 그리고 최적 스케일 컴퓨트 사이의 관계를 보여주는 역할을 한다.

3. 손실에서 벤치마크 성능으로 가는 적합

손실 또는 scaled compute로 모델을 정렬한 뒤에는 벤치마크 성능과 손실 사이의 곡선을 적합한다. 연구진은 과제별 데이터가 보통 수십 개 포인트에 불과하다는 점을 고려해, 매개변수가 적은 단순한 형태의 함수를 선호한다. 대표적으로 sigmoid 곡선을 사용해 BIG-Bench Hard와 MMLU의 전체 성능을 예측한다. 예측 가능성을 평가하기 위해서는 곡선의 오른쪽, 즉 더 큰 규모의 모델 포인트를 일부 제외하고 학습한 뒤, 제외된 지점의 성능을 얼마나 잘 맞히는지 백테스트한다.

4. 전체 벤치마크 성능은 비교적 매끄럽게 예측된다

결과적으로 전체 벤치마크 성능은 컴퓨트 스케일링에 따라 비교적 예측 가능한 패턴을 보인다. BIG-Bench Hard와 MMLU의 집계 성능은 대체로 S-커브와 일치하는 흐름을 보이며, 한 자릿수 규모의 스케일 외삽에서 sigmoid 적합의 평균 절대오차는 6%포인트로 제시된다. 다만 예측 오차는 더 먼 미래의 규모로 외삽할수록 점진적으로 커진다. 연구진은 현재 추세가 유지된다면 BIG-Bench가 scaled compute 약 6e25 FLOP 부근에서 인간 수준으로 제시된 80% 성능을 넘을 수 있고, 5e26 FLOP까지는 이 수준에 도달할 가능성이 약 90%라고 추정한다.

5. 예측에는 기존 성능 진전이 필요하다

이 글은 성능 예측이 단순히 낮은 성능 구간의 자료만으로 자동으로 가능해지는 것은 아니라고 강조한다. 성능이 갑자기 가파르게 상승하는 구간이 존재하면, 아직 성능이 낮은 모델들만 관찰한 상태에서는 먼 구간의 변화를 예측하기 어렵다. 따라서 스케일링 기반 예측이 유용하려면 어느 정도의 사전 진전, 즉 모델이 해당 벤치마크에서 이미 의미 있는 성능을 보이기 시작한 데이터가 필요하다. Figure 3은 외삽 거리가 길어질수록 절대오차가 증가하는 경향과 여러 적합 방식의 오차 범위를 비교해 이 한계를 보여준다.

6. 개별 과제는 훨씬 더 불규칙하다

전체 벤치마크와 달리 개별 과제의 성능 스케일링은 매우 큰 변동성을 보인다. 어떤 과제는 sigmoid 곡선으로 잘 설명되지만, 어떤 과제는 능력이 갑자기 출현하는 듯한 sharp emergence를 보이거나 sigmoid에서 뚜렷하게 벗어난다. 그럼에도 개별 과제 예측은 무작위나 단순한 과제별 평균 기준선보다는 유의미하게 낫다. 오차 분포는 fat-tailed 형태로, 절반이 넘는 과제는 10% 미만 오차로 예측되지만 일부 과제는 훨씬 큰 오차를 보이며, 특히 선다형을 선호 지표로 쓰는 과제에서 높은 오차가 나타난다고 설명된다.

7. 스케일 중심의 AI 능력 예측 가능성

결론적으로 연구진은 언어모델 벤치마크가 스케일링으로부터 상당 부분 예측 가능하지만, 그 예측은 불완전하며 특히 개별 과제 수준에서는 더 조심해야 한다고 말한다. 더 큰 데이터 시리즈를 보면 이전의 소수 모델 기반 분석이 놓쳤던 유의미한 예측 가능성이 드러난다. 이는 고수준 모델 능력이 규모 확장과 함께 어느 정도 예측 가능한 방식으로 발전한다는 관점을 뒷받침한다. 연구진은 이러한 방법이 향후 AI 능력 전망을 개선하고, 연구와 정책 판단에 유용한 예측 도구로 발전할 수 있기를 기대한다.

🧾 핵심 주장 / 시사점

전체 벤치마크 성능은 개별 과제보다 훨씬 안정적인 신호를 제공하므로, 모델 능력의 장기 추세를 볼 때는 과제 하나의 급등락보다 집계 지표를 더 신뢰할 필요가 있다.
스케일링 기반 예측은 강력하지만 초기 저성능 구간만으로는 급격한 성능 전환을 포착하기 어렵기 때문에, 예측에는 충분한 중간 구간 데이터가 중요하다.
개별 과제의 예측 오차가 fat-tailed라는 점은 특정 능력의 출현 시점을 단정하기보다, 여러 과제와 집계 지표를 함께 보는 확률적 접근이 필요함을 시사한다.