Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown

Quick Summary

Traditional Benchmarks는 Modern AI Models의 실제 능력을 충분히 설명하지 못하며, 이제 모델 평가는 단일 점수가 아니라 테스트 타임 컴퓨트, 비용, 시간, 스캐폴딩을 함께 보는 방식으로 바뀌어야 한다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown 내용을 설명하는 본문 이미지

💡 한 줄 결론

Traditional Benchmarks는 Modern AI Models의 실제 능력을 충분히 설명하지 못하며, 이제 모델 평가는 단일 점수가 아니라 테스트 타임 컴퓨트, 비용, 시간, 스캐폴딩을 함께 보는 방식으로 바뀌어야 한다.

📌 핵심 요점

  1. 최신 AI 모델은 고정된 성능을 가진 도구가 아니라, 추론 시점에 얼마나 많은 토큰·시간·비용을 투입하느냐에 따라 능력이 달라지는 시스템으로 설명된다.
  2. 기존 벤치마크 표는 모델별 단일 점수를 비교하지만, 같은 모델도 여러 번 실행하거나 별도 judge를 붙이거나 더 긴 사고 시간을 주면 점수가 달라질 수 있어 실제 모델 개선과 평가 기법의 효과를 구분하기 어렵습니다.
  3. Noam Brown은 현대 모델 평가에서 10달러, 1만 달러, 1,000만 달러 같은 예산 축이 중요해졌다고 설명하며, 성능 곡선으로 모델을 비교해야 차이가 더 명확해진다고 봅니다.
  4. 안전성 평가도 같은 문제에 직면합니다. 유용한 과제에서 큰 테스트 타임 컴퓨트가 능력을 확장한다면, 생물무기 제작 같은 위험 과제에서도 비슷한 확장 가능성을 고려해야 한다.
  5. 다만 테스트 타임 컴퓨트가 모든 문제를 해결하는 것은 아닙니다. 사실 검색형 문제처럼 오래 생각해도 개선이 제한적인 영역이 있고, 연구에서는 모델의 실행력뿐 아니라 인간의 research taste와 판단력이 여전히 중요한다.

🧩 배경과 문제 정의

  • 기존 벤치마크는 모델 성능을 단일 점수로 비교하지만, 현대 AI 모델의 능력은 테스트 타임 컴퓨트 예산에 따라 크게 달라진다.
  • GPT-3 시절에는 오래 생각하게 해도 성능 향상이 제한적이었지만, 최신 모델은 스캐폴딩과 충분한 토큰·시간·비용이 주어질 때 더 긴 구간에서도 성능이 계속 향상된다.
  • 따라서 모델 평가와 안전성 평가는 “모델 자체의 능력”뿐 아니라 “얼마나 많은 추론 예산을 허용했는가”를 함께 고려해야 한다.
  • 사용자 경험 측면에서는 긴 추론이 항상 실용적인 것은 아니므로, 문제 성격에 따라 빠른 상호작용과 장시간 사고를 적절히 조절하는 방식이 중요하다.

🕒 시간순 섹션별 상세정리

1. 테스트 타임 컴퓨트가 모델 능력의 일부가 됨

  • GPT-3는 1,000만 달러 수준의 큰 테스트 타임 예산을 투입해도 할 수 있는 일이 크게 늘지 않았지만, 최신 모델은 투입 비용에 따라 수행 가능한 작업 범위가 달라진다 [00:09]
  • 기존 사전 프레임워크와 책임 있는 스케일링 정책은 모델의 정적 능력에 초점을 맞추며, 추론 시점의 컴퓨트 사용량을 충분히 반영하지 못한다 [00:24]

2. 5.5 모델 논란과 단일 벤치마크 표의 한계

  • 5.5 공개 직후 기존 벤치마크 표에서는 5.4 대비 개선 폭이 몇 퍼센트포인트로만 보여, 실제로 훨씬 나은 모델인지에 대한 회의가 생겼다 [01:37]
  • 새 모델 릴리스 때 흔히 제시되는 벤치마크 그리드는 모델별 단일 숫자를 보여주지만, 이 방식은 추론 시간과 비용 차이를 통제하지 못한다 [01:58]

3. 예산 기반 평가와 장기 추론 성능 예측

  • 현대 모델 평가는 토큰, 비용, 시간처럼 명시적 예산을 두거나, 테스트 타임 컴퓨트 양에 따른 성능 곡선으로 비교해야 한다 [04:00]
  • 사이버 보안 같은 과제에서는 1억 토큰을 사용한 뒤에도 성능이 계속 개선되며, 긴 추론 평가는 현재 릴리스 주기와 예산을 넘어설 수 있다 [04:40]

4. 사용자 환경에서는 추론 시간의 유연성이 중요함

  • 모든 문제에서 모델을 일주일 동안 생각하게 하면 벤치마크 점수에는 유리할 수 있지만, 실제 작업 환경에서는 실용성이 떨어진다 [06:08]
  • 사용자는 모델과 빠르게 반복하며 문제를 풀 때 효율을 얻으므로, 모델은 빠른 응답이 필요한 상황과 긴 사고가 필요한 상황을 구분해야 한다 [06:26]

5. 벤치마크 맥싱과 사적 평가셋의 필요성

  • 같은 모델을 여러 번 실행해 다섯 개 답변 중 최선의 답을 고르거나 별도 judge로 선택하면, 모델 자체가 좋아지지 않아도 점수가 크게 오를 수 있다 [07:03]
  • 여러 모델을 스캐폴딩으로 묶는 방식은 표면적 성능을 높이지만, 테스트 타임 컴퓨트를 통제하면 실제 모델 개선과 구분할 수 있다 [07:17]

6. 포커 솔버 사례에서 드러난 추론 능력 변화

  • 초기 모델은 포커 봇 제작을 거의 수행하지 못했지만, 5.2는 사용자 개입을 받으며 포커의 마지막 단계인 river solver를 만들었다 [09:15]
  • 5.2는 작업 속도를 사람 단독 대비 약 5배 높였고, 코드 최적화에서는 사람보다 약 10배 빠르게 개선을 만들어낼 수 있었다 [10:05]

7. 테스트 타임 컴퓨트를 반영하지 못하는 안전성 평가

  • 준비 프레임워크와 책임 있는 스케일링 정책은 모델 출시 시 생물무기 제작처럼 악용 가능한 위험 능력이 있는지 평가한다 [12:00]
  • GPT-3 시대에는 테스트 예산이 10달러든 1,000만 달러든 능력 차이가 크지 않았지만, 현재 모델은 예산이 커질수록 수행 가능한 작업 범위도 넓어진다 [12:24]

8. 장기 실행 능력과 모델 출시 주기의 충돌

  • 최신 모델은 더 긴 시간 지평에서 작동할 수 있으며, 스캐폴딩을 통해 여러 실험을 몇 주나 몇 달 단위의 작업 흐름으로 이어갈 수 있다 [14:45]
  • GPT-3는 일주일 동안 유용하게 실행되도록 구성하기 어려웠지만, 최근 모델은 장기 실험을 실제 워크플로로 묶을 수 있다 [14:54]

9. 에르되시 단위 거리 문제와 공개 모델의 잠재 능력

  • 이미 공개된 모델에도 아직 충분히 탐색되지 않은 잠재 능력이 있으며, 에르되시 단위 거리 문제는 그 가능성을 보여주는 수학 사례다 [17:14]
  • OpenAI 내부 모델은 수학자들이 오래 다뤄온 단위 거리 추측을 반박했고, 낮은 예산에서도 검증 가능한 반례에 도달했다 [17:21]

10. 빠른 모델 출시가 탐색 비용과 연구 우선순위를 바꿈

  • 새 모델이 몇 달마다 나오면 같은 수학 문제를 푸는 비용이 다음 출시마다 10배 또는 100배까지 낮아질 수 있다 [19:24]
  • 따라서 지금 대규모 엔지니어링에 투자할지, 다음 모델을 기다릴지가 전략적 선택이 되며, 열린 수학·물리 문제를 끝까지 밀어붙이는 데 모든 시간을 쓰기는 어렵다 [19:58]

11. 테스트 타임 컴퓨트가 항상 지능으로 바뀌지는 않음

  • 대규모 테스트 타임 컴퓨트가 곧바로 전 영역 초지능을 만들지는 않으며, 큰 추론 예산만으로 다음 세대 모델이 자동 생성되지는 않는다 [20:59]
  • 사실 검색형 질문은 오래 생각한다고 크게 개선되지 않으며, 모르는 사실을 위키피디아 없이 일주일 동안 고민한다고 알게 되지는 않는다 [21:39]

12. 연구에서는 모델의 실행력과 인간의 판단력이 함께 필요함

  • 현재 모델은 테스트 타임 컴퓨트를 충분히 투입해도 모든 직업이나 연구 전체를 대체하지 못하며, 성능 향상이 멈추는 과제 영역이 여전히 있다 [23:08]
  • 연구에서 특히 부족한 것은 research taste이며, 어떤 방향이 가치 있는지 고르는 판단은 아직 인간 연구자의 역할로 남아 있다 [23:20]

13. 기존 알고리즘 최적화와 새로운 연구 발명의 격차

  • 포커 솔버 사례에서 모델은 박사과정 때 만든 알고리즘을 10배에서 100배까지 빠르게 만들며, 기존 코드와 절차의 비효율을 드러냈다 [24:00]
  • 그러나 공개 연구를 종합해 기존 알고리즘보다 나은 새 알고리즘을 만들라는 과제에서는, 충분한 시간을 줘도 단순 지시만으로 연구적 발명이 나오지 않았다 [24:21]

14. RSI는 연구자 대체보다 병목 이동과 점진적 가속에 가까움

  • 모델은 연구실 내부 작업을 가속하지만 모든 작업을 같은 비율로 빠르게 만들지는 못하며, 100배 빨라진 작업 이후에도 남은 병목이 전체 속도를 제한한다 [25:24]
  • 시간이 지나며 병목 영역은 줄어들 수 있지만, 현재 변화의 본질은 연구자를 완전히 대체하는 것보다 연구자가 수행하는 일의 구성을 바꾸는 데 가깝다 [25:33]

15. 멀티에이전트의 한계와 지식 축적 문제

  • 멀티에이전트 연구는 이미 폭넓게 탐색됐지만, 충분한 규모와 프런티어 모델 수준에서는 아직 더 큰 가능성이 남아 있다 [27:10]
  • 현재의 멀티에이전트 스캐폴드는 의미 있는 성과를 내고 있으나, 앞으로 가능한 협업·분산 추론 능력에 비하면 아직 초기적이고 표면적인 단계에 가깝다 [27:36]

16. 프런티어 경쟁은 강하지만 위험 인식도 함께 존재함

  • 프런티어 랩 간 경쟁은 매우 강하며, 현재 모델도 연구자가 모델 연구를 더 빠르게 수행하도록 돕는 증폭 요인으로 작동하고 있다 [29:48]
  • 모델을 활용해 모델 연구를 개선하는 흐름은 이미 현실이 되었고, 시간이 지날수록 이 연구 가속 효과는 더 강해질 가능성이 높다 [29:53]

17. 일상적 고위험 판단에서 모델 신뢰도가 높아짐

  • 2022~2023년에는 AI 출력 신뢰도가 낮다고 느낀 사람도 많았지만, 최신 모델은 고위험 의사결정 보조에 활용할 만큼 성능이 높아졌다 [31:03]
  • 세금 조언, 콘도 구매 서류, 행정 절차의 의미 파악처럼 복잡하고 실용적인 질문에서도 모델은 구체적인 도움을 제공할 수 있다 [31:18]

18. 벤치마크 균형과 라우팅 평가는 비용 축으로 다시 봐야 함

  • 테스트 타임 컴퓨트의 중요성이 완전한 합의에 이르지 못한 이유는 여전히 많은 벤치마크가 토큰·비용·시간 축 없이 기존 점수표 형태로 공개되기 때문이다 [32:16]
  • 연구자들은 x축이 있는 벤치마크가 더 타당하다고 인정하면서도, 모두가 기존 표를 내기 때문에 다시 기존 표를 요구하는 나쁜 균형에 머물고 있다 [32:30]

19. 소셜 채널과 영상 구독 경로

  • Twitter 계정은 no prior pod로 안내되며, 짧은 소식과 에피소드 관련 업데이트를 따라갈 수 있는 외부 접점 역할을 한다 [36:00]
  • YouTube 채널 구독은 진행자들의 얼굴을 함께 보고 싶은 시청자에게 맞는 경로이며, 오디오 청취와는 다른 영상 기반 접근성을 제공한다 [36:03]

20. 팟캐스트 구독과 transcript 접근

  • Apple Podcasts, Spotify, 기타 청취 플랫폼 팔로우는 매주 새 에피소드를 자동으로 받기 위한 반복 청취 경로다 [36:07]
  • 이메일 등록과 no-priors.com의 transcript 페이지는 에피소드별 자료를 다시 확인하거나 텍스트로 내용을 추적하려는 이용자에게 필요한 보조 접근 경로다 [36:12]

🧾 결론

  • 이 영상의 핵심은 “AI 모델의 성능”을 더 이상 모델 이름 하나와 벤치마크 점수 하나로 요약하기 어렵다는 점입니다. 현대 모델은 추론 예산, 실행 시간, 스캐폴딩 방식에 따라 전혀 다른 능력을 보일 수 있다.
  • 기존 벤치마크는 빠르고 비교하기 쉬운 장점이 있지만, 테스트 타임 컴퓨트가 성능의 중요한 일부가 된 상황에서는 모델의 실제 잠재력과 실사용 효용을 과소평가하거나 왜곡할 수 있다.
  • 평가 체계는 단일 숫자보다 비용·시간·토큰 대비 성능 곡선, private held-out set, 실제 사용 시나리오, 장기 실행 능력까지 함께 반영하는 방향으로 바뀌어야 한다.
  • 모델이 더 오래 생각할수록 좋아지는 영역과 그렇지 않은 영역을 구분하는 것이 중요합니다. 수학, 코딩, 탐색형 문제에서는 장기 추론이 효과적일 수 있지만, 단순 사실 기억이나 잘못된 전제의 검증에는 별도의 한계가 남습니다.
  • 검증이 필요한 부분: 영상에서 언급된 특정 모델의 미래 능력, 예컨대 6개월이나 1년 뒤 박사 논문 규모의 포커 솔버를 한 번에 만들 수 있다는 가능성, 1천~10만 달러 규모 컴퓨트로 특정 수학 문제에 도달할 수 있다는 추정은 발화자의 전망과 추정으로 분리해 이해해야 한다.

📈 투자·시사 포인트

  • AI 기업과 모델 사용자는 “가장 높은 벤치마크 점수”보다 “동일 비용에서 더 나은 결과를 내는가”를 봐야 합니다. 추론 비용이 커질수록 성능이 오르는 모델이라면, 가격 정책과 사용량 설계가 경쟁력의 핵심이 된다.
  • 모델 평가 시장, 안전성 평가, private benchmark, 장기 추론 테스트 인프라의 중요성이 커질 가능성이 있습니다. 단일 리더보드보다 비용 통제형 평가와 실제 업무 기반 평가가 더 큰 신뢰를 얻을 수 있다.
  • 제품 관점에서는 빠른 응답과 긴 사고를 자동으로 조절하는 라우팅·에이전트 설계가 중요합니다. 모든 요청에 오래 생각하게 하는 방식은 비효율적이고, 문제 난도에 따라 추론 예산을 배분하는 능력이 차별화 요소가 된다.
  • 프런티어 모델 경쟁은 단순히 더 큰 모델을 만드는 경쟁을 넘어, 테스트 타임 컴퓨트 효율, 스캐폴딩, 멀티에이전트 조율, 지식 축적 구조를 누가 더 잘 설계하느냐의 경쟁으로 확장될 수 있다.
  • 투자 판단에서는 벤치마크 headline만 보고 모델 우위를 단정하기보다, 동일 비용·동일 시간·동일 사용 조건에서의 성능, 실제 워크플로우 개선 폭, 안전성 평가 체계를 함께 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

  • 영상에서 언급된 “5.5”, “5.4”, “5.2”가 정확히 어떤 모델 릴리스 또는 내부 명칭을 가리키는지는 section-detail만으로는 확정하기 어렵다.
  • 포커 솔버 사례의 “사람 단독 대비 약 5배”, “코드 최적화 약 10배” 같은 수치는 발표자의 경험적 비교로 보이며, 독립 벤치마크나 재현 가능한 측정인지 별도 확인이 필요하다.
  • 에르되시 단위 거리 문제에서 “OpenAI 내부 모델이 반례에 도달했다”는 설명은 중요한 수학·AI 성과 주장에 해당하므로, 실제 문제 정의, 반례 내용, 검증 방식, 공개 자료 여부를 따로 확인해야 한다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • 모델 평가표를 단일 점수 중심이 아니라 토큰 수, 달러 비용, wall-clock 시간, 스캐폴딩 조건을 함께 표시하는 형태로 재설계한다.
  • 같은 모델을 여러 번 실행하거나 judge로 최선 답변을 고르는 방식이 벤치마크 점수에 미치는 영향을 별도 항목으로 기록한다.
  • 공개 벤치마크 점수와 분리된 held-out private evaluation set을 마련해 benchmark maxing 가능성을 줄인다.
  • 안전성 평가에서 10달러, 100달러, 1만 달러, 그 이상 예산별 능력 차이를 비교하는 테스트 타임 컴퓨트 축을 추가한다.

❓ 열린 질문

  • 모델 비교에서 가장 공정한 x축은 토큰 수, 비용, wall-clock 시간, 에너지 사용량, 혹은 이들의 조합 중 무엇인가?
  • 낮은 테스트 타임 컴퓨트 예산에서 관찰한 성능 곡선만으로 높은 예산 성능을 얼마나 신뢰성 있게 예측할 수 있는가?
  • 장기 실행 능력을 평가하려면 몇 주 또는 몇 달짜리 실험이 필요할 수 있는데, 이를 빠른 모델 출시 주기와 어떻게 조화시킬 수 있는가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.