Articlehai.stanford.edu·2026년 7월 5일·0

New Approach to Scaling Laws Could Change How AI Models Are Trained

Quick Summary

스탠퍼드 연구진은 교육측정학의 문항응답 원리를 스케일링 법칙에 적용해, 대형 언어모델 성능 예측에 필요한 계산량을 크게 줄이는 아이템 응답 스케일링 법칙을 제안했다.

New Approach to Scaling Laws Could Change How AI Models Are Trained 관련 대표 이미지

🖼️ 인포그래픽

New Approach to Scaling Laws Could Change How AI Models Are Trained 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

New Approach to Scaling Laws Could Change How AI Models Are Trained 내용을 설명하는 본문 이미지

💡 한 줄 요약

스탠퍼드 연구진은 교육측정학의 문항응답 원리를 스케일링 법칙에 적용해, 대형 언어모델 성능 예측에 필요한 계산량을 크게 줄이는 아이템 응답 스케일링 법칙을 제안했다.

📌 핵심 요약

  • 대형 언어모델은 한 번의 학습 반복에도 수억 달러에서 10억 달러가 들 수 있어, 개발자들은 실제 대규모 학습 전에 성능을 예측하는 스케일링 법칙에 의존해 왔다.
  • 기존 스케일링 방식은 작은 모델 여러 개를 수많은 벤치마크 문항에 반복적으로 평가해야 하므로, 대규모 학습보다 싸더라도 여전히 많은 계산 비용을 요구한다.
  • 스탠퍼드의 산미 코예조, 상 트루옹 연구진은 측정과학과 교육평가의 원리를 차용한 아이템 응답 스케일링 법칙을 제안했다.
  • 이 방식은 모델이 문항에 답하는 양상과 문항 난이도의 관계를 활용해 필요한 질문 수를 줄이며, 경우에 따라 기존과 같거나 더 높은 예측 정확도를 낸다.
  • 연구진은 아이템 응답 스케일링 법칙이 학계처럼 계산 자원이 제한된 환경에 특히 큰 도움이 될 수 있으며, 더 적은 작업으로 더 나은 신호를 얻는 방법이라고 설명했다.

🧩 주요 포인트

  1. 대형 언어모델은 한 번의 학습 반복에도 수억 달러에서 10억 달러가 들 수 있어, 개발자들은 실제 대규모 학습 전에 성능을 예측하는 스케일링 법칙에 의존해 왔다.
  2. 기존 스케일링 방식은 작은 모델 여러 개를 수많은 벤치마크 문항에 반복적으로 평가해야 하므로, 대규모 학습보다 싸더라도 여전히 많은 계산 비용을 요구한다.
  3. 스탠퍼드의 산미 코예조, 상 트루옹 연구진은 측정과학과 교육평가의 원리를 차용한 아이템 응답 스케일링 법칙을 제안했다.
  4. 이 방식은 모델이 문항에 답하는 양상과 문항 난이도의 관계를 활용해 필요한 질문 수를 줄이며, 경우에 따라 기존과 같거나 더 높은 예측 정확도를 낸다.
  5. 연구진은 아이템 응답 스케일링 법칙이 학계처럼 계산 자원이 제한된 환경에 특히 큰 도움이 될 수 있으며, 더 적은 작업으로 더 나은 신호를 얻는 방법이라고 설명했다.

🧠 상세 정리

1. 대형 모델 학습 비용과 스케일링 법칙의 필요성

기사의 출발점은 대형 언어모델 학습 비용이 매우 높다는 현실이다. 빅테크 기업들은 정확한 비용을 공개하지 않지만, 챗지피티, 클로드, 제미나이 같은 모델의 한 번 학습 반복에는 수억 달러에서 10억 달러까지 들 수 있다는 추정이 제시된다. 이런 비용 구조에서는 개발자가 새 모델을 여러 번 시험 삼아 학습시키기 어렵고, 가능하면 한 번의 대규모 학습으로 원하는 결과를 얻어야 한다. 그래서 실제 대형 학습을 진행하기 전에 작은 모델들의 성능을 바탕으로 큰 모델이 어떻게 확장될지 예측하는 스케일링 법칙이 핵심 도구가 되었다.

2. 기존 스케일링의 한계

스케일링 법칙은 대형 모델 개발에서 비용을 통제하고 대규모 단일 학습에 대한 확신을 높이는 역할을 해 왔다. 연구진의 설명에 따르면, 스케일링 법칙이 검증되기 전에도 일부 선도 개발자들은 이 방식에 큰 전략적 결정을 걸었고 결과적으로 맞아떨어졌다. 그러나 기존 접근은 대규모 학습 자체보다 저렴할 뿐, 여전히 상당한 계산 비용을 요구했다. 작은 모델들을 많이 학습하거나 평가하고, 수많은 벤치마크 문항에 반복적으로 답하게 해야 했기 때문에 스케일링 자체도 값비싼 인프라가 된 것이다.

3. 아이템 응답 스케일링 법칙의 핵심 아이디어

새 논문에서 산미 코예조, 상 트루옹과 공동 연구진은 스케일링 알고리즘을 더 효율적으로 설계하는 프레임워크를 제안한다. 이 프레임워크의 이름은 아이템 응답 스케일링 법칙이며, 표준화 학업평가인 에스에이티 같은 시험에서 쓰이는 개념과 같은 계열에 놓인다. 핵심은 응시자와 문항의 관계를 분석하는 교육측정학, 즉 심리측정학의 원리를 모델 평가에 적용하는 것이다. 모델이 정답을 맞히면 이후 라운드에서 더 어려운 문항을 제시하는 식으로 능력을 추정해, 모든 모델에게 모든 질문을 반복해서 묻지 않고도 성능을 예측한다.

4. 적은 질문으로 같은 정확도를 얻는 통계적 지름길

연구진은 아이템 응답 스케일링 법칙이 기존 방식과 같거나 더 높은 예측 정확도를 훨씬 적은 질의로 달성할 수 있다고 설명한다. 전통적인 스케일링에서는 잠재 질문이 1만 개 이상이 될 수 있고, 여기에 모델 수와 답변 샘플링 횟수가 곱해지면 한 번의 스케일링 실행이 10조 개 질의 규모로 커질 수 있다. 반면 새 접근은 정보가 많은 질문을 더 효율적으로 사용해, 경우에 따라 50개 문항만으로도 동등한 정확도를 낸다고 제시된다. 기사에서는 이를 99퍼센트가 넘는 질의 감소로 설명하며, 시간과 비용을 줄이면서도 성능 예측을 개선할 수 있다고 강조한다.

5. 학계와 민간 개발자에게 주는 의미

상 트루옹은 기존 프레임워크에서는 결과를 예측하기 위해 수천 개의 작은 모델을 수만 개 벤치마크 문항에 걸쳐 실행해야 하는 경우가 많았다고 말한다. 새 접근은 이 과정을 훨씬 효율적이고 신뢰도 높게 만들며, 어떤 경우에는 계산 작업을 덜 하는 것이 예측 결과를 오히려 개선한다고 설명한다. 코예조는 이 방법의 영향이 특히 학계에서 클 것으로 본다. 대형 모델 학습 비용이 연구자들에게 큰 장벽이 되는 만큼, 계산 자원이 제한된 환경에서도 스케일링을 과학적이고 통계적으로 엄밀하게 다룰 도구를 제공할 수 있기 때문이다.

6. 연구의 결론과 지원 배경

기사의 결론은 아이템 응답 스케일링 법칙이 스케일링과 학습 절차를 더 정교하게 다듬을 수 있음을 보여준다는 데 있다. 코예조는 이 접근이 더 적은 작업으로 더 나은 신호를 얻는 역설적인 조합을 가능하게 한다고 설명한다. 논문은 국제머신러닝학회에 채택된 연구로 소개되며, 공동 저자로 스탠퍼드의 라일런 셰퍼와 캘리포니아대학교 로스앤젤레스의 유헹 투가 언급된다. 연구는 미국 국립과학재단, 아르파-H, 맥아더 재단, 슈미트 사이언스, 스탠퍼드 인간중심 인공지능 연구소, 오픈에이아이, 마이크로소프트, 구글의 지원으로 수행되었다.

🧾 핵심 주장 / 시사점

  • 스케일링 법칙은 대형 모델 학습을 대신하는 단순한 보조 계산이 아니라, 막대한 학습 비용을 감수하기 전 전략적 결정을 가능하게 하는 핵심 인프라로 다뤄지고 있다.
  • 아이템 응답 스케일링 법칙의 핵심 가치는 더 많은 벤치마크를 무차별적으로 수행하는 것이 아니라, 어떤 질문이 모델 능력 추정에 더 많은 정보를 주는지를 활용한다는 데 있다.
  • 이 연구가 강조하는 변화는 대형 모델 개발의 경쟁력이 순수한 계산 자원 규모뿐 아니라, 평가와 예측을 설계하는 통계적 효율성에도 달려 있음을 보여준다.

✅ 액션 아이템

  • 기존 반복 벤치마크 방식의 문항 수를 단계적으로 줄여, 아이템 응답 스케일링 기반 성능예측 파이프라인을 설계한다.
  • 문항 난이도와 모델 응답 패턴의 관계를 정량화해 기존 방식 대비 동일하거나 더 높은 예측 정확도를 보이는 구간을 정의한다.
  • 수억~10억 달러가 드는 대형모델 학습 전 단계에, 계산 자원 제약 환경에서의 적용 가능성과 비용 절감 범위를 평가한다.

❓ 열린 질문

  • 아이템 응답 스케일링에서 기존 대비 동일 혹은 상향 예측 정확도를 보장하는 최소 문항 수는 어느 수준인가?
  • 문항 난이도 추정에 사용하는 응답 패턴이 과적합 없이 예측 신호를 확보하려면 어떤 수집·정제가 필요한가?
  • 학계처럼 계산 자원이 제한된 환경에서 이 방법이 실제로 효과가 가장 큰 모델 규모와 학습 구간은 어디인가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.