Reading today's open-closed performance gap
Quick Summary
오픈 모델과 폐쇄 모델의 성능 격차는 하나의 벤치마크 점수로 설명하기 어렵고, 과제 유형·훈련 방식·데이터 접근성·실제 제품 채택의 변화에 따라 계속 재정의된다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
오픈 모델과 폐쇄 모델의 성능 격차는 하나의 벤치마크 점수로 설명하기 어렵고, 과제 유형·훈련 방식·데이터 접근성·실제 제품 채택의 변화에 따라 계속 재정의된다.
📌 핵심 요약
- 현재 오픈 모델은 폐쇄 모델을 계속 추격하는 균형에 있지만, 그 격차를 단일 숫자로 보는 방식은 어떤 능력에서 차이가 나는지 가리는 문제가 있다.
- 벤치마크는 시간이 지나며 실제 사용성과의 상관관계가 흔들리고, 특히 새로운 과제 영역으로 산업의 초점이 이동할 때 신뢰도가 낮아진다.
- ChatGPT 직후에는 채팅·수학·간단한 코드가 중심이었지만, 2025년 이후 추론 모델이 기본값이 되면서 복잡한 코딩과 단순한 에이전트형 과제로 초점이 옮겨갔다.
- 폐쇄형 프런티어 연구소들은 코드·터미널 과제와 더 다양한 지식 노동 과제에 막대한 투자를 하고 있으며, 이런 새 영역은 평가 자체도 어렵고 필요한 데이터도 더 사적이다.
- 오픈 모델은 벤치마크상 매우 강해졌지만 긴 문맥과 견고성 같은 실제 사용에서 약점이 드러나며, 프런티어 기업들은 지속적인 수익 성장을 위해 새로운 가치 있는 사용 사례를 계속 발명해야 한다.
🧩 주요 포인트
- 현재 오픈 모델은 폐쇄 모델을 계속 추격하는 균형에 있지만, 그 격차를 단일 숫자로 보는 방식은 어떤 능력에서 차이가 나는지 가리는 문제가 있다.
- 벤치마크는 시간이 지나며 실제 사용성과의 상관관계가 흔들리고, 특히 새로운 과제 영역으로 산업의 초점이 이동할 때 신뢰도가 낮아진다.
- ChatGPT 직후에는 채팅·수학·간단한 코드가 중심이었지만, 2025년 이후 추론 모델이 기본값이 되면서 복잡한 코딩과 단순한 에이전트형 과제로 초점이 옮겨갔다.
- 폐쇄형 프런티어 연구소들은 코드·터미널 과제와 더 다양한 지식 노동 과제에 막대한 투자를 하고 있으며, 이런 새 영역은 평가 자체도 어렵고 필요한 데이터도 더 사적이다.
- 오픈 모델은 벤치마크상 매우 강해졌지만 긴 문맥과 견고성 같은 실제 사용에서 약점이 드러나며, 프런티어 기업들은 지속적인 수익 성장을 위해 새로운 가치 있는 사용 사례를 계속 발명해야 한다.
🧠 상세 정리
1. 단일 점수로는 보이지 않는 오픈-폐쇄 모델 격차
글은 현재 오픈 모델이 폐쇄 모델을 계속 따라잡는 위치에 있다는 점을 인정하면서도, 이 격차를 하나의 숫자나 거리로 보는 관점이 핵심을 흐린다고 지적한다. 대표적으로 Artificial Analysis Intelligence Index 같은 복합 벤치마크가 약 10개의 하위 평가를 묶어 ‘프런티어’ 언어모델 능력을 추적하지만, 그 숫자만으로 모델의 실제 능력 분포를 이해하기는 어렵다. 저자가 문제 삼는 것은 벤치마크가 무엇을 측정하는지, 그 측정이 실제 사용과 얼마나 연결되는지, 그리고 훈련 방식이 어떻게 특정 점수를 끌어올리는지에 대한 맥락이다. 따라서 오픈-폐쇄 격차는 단순히 몇 점 차이라는 문제가 아니라, 어떤 능력 영역에서 누가 앞서고 뒤처지는지를 따져야 하는 동적인 문제로 제시된다.
2. 벤치마크와 실제 성능 사이의 흔들리는 상관관계
저자는 벤치마크가 산업의 변화에 맞춰 계속 변하지만, 실제 성능을 대표하는 지표로서의 신뢰도는 약해지고 있다고 본다. 벤치마크는 시간이 지나며 사람들이 모델을 사용하는 방식과 더 잘 맞거나, 반대로 덜 맞게 될 수 있다. 또한 모델의 실제 업무 성능이 벤치마크 순위와 반드시 일치하지 않는 경우도 생긴다. Gemini 3가 뛰어난 벤치마크 성적을 보였지만 현재 AI 도구가 테스트되고 배치되는 에이전트 영역에서는 상대적으로 중요성이 낮게 보인다는 사례가 그 회색지대를 보여준다. 이런 현상은 측정 방식에 지속적이고 명백한 결함이 있음을 드러내며, 특히 새로운 능력 패러다임이 등장할수록 저자의 벤치마크 신뢰도는 낮아진다.
3. 과제와 LLM 패러다임의 이동
ChatGPT 직후의 관심사는 채팅, 수학, 간단한 코드가 섞인 형태였고, 이 시기에는 instruction tuning과 RLHF가 지배적인 방식이었다. 그러나 채팅 능력은 빠르게 포화되며 관심에서 밀려났고, 수학 역시 한때보다 덜 중심적인 영역이 되었다. 2025년을 지나 현재에 이르러서는 추론 모델이 기본값처럼 자리 잡으면서 더 복잡한 코딩과 비교적 단순한 에이전트형 과제가 중심으로 이동했다. 저자는 지금을 이 첫 번째 시대의 끝자락으로 본다. 최근 훈련 레시피는 검증 가능한 보상을 사용하는 강화학습이 지배적이지만, 그것이 적용되는 영역은 단순한 질의응답 검증에서 훨씬 복잡한 환경으로 크게 바뀌었다.
4. 프런티어 연구소의 투자와 새 지식 노동 영역
폐쇄형 프런티어 연구소들은 현재의 핵심 과제인 코드, 터미널 작업 등에 엄청난 규모의 자금을 투입하고 있으며, 동시에 더 다양한 지식 노동 과제로 확장하려 한다. 이 새로운 과제들은 회계, 법률, 의료처럼 전문성이 필요한 영역을 포함하고, 여전히 에이전트적 성격을 갖지만 기존 소프트웨어나 도메인별 도구와의 통합을 요구하는 경우가 많다. 저자는 바로 이런 영역에서 오픈 모델이 따라가기 어려울 것이라고 말한다. 다만 이러한 새로운 도메인들의 진짜 능력 균형에 대해서는 아직 증거가 제한적이다. 더 큰 문제는 복잡한 언어모델 워크플로를 평가하는 일 자체가 별도의 어려운 연구 문제라는 점이다.
5. 데이터·환경 접근성과 추격 방식의 변화
과제가 어려워질수록 해당 과제에서 성능을 끌어올리는 데 필요한 데이터는 더 사적인 성격을 띠게 된다. 코드는 GitHub에 방대한 공개 데이터가 있지만, 전문 지식 노동이나 복잡한 에이전트 환경에서는 같은 방식으로 접근하기 어렵다. 선도적인 오픈 모델 연구소들은 데이터 산업에서 벌어지는 독특한 경제 구조의 도움을 받는데, 미국의 몇몇 선도 연구소가 새로운 환경과 데이터셋을 매우 비싼 가격에 구매하면, 뒤따르는 연구소들이 나중에 이를 훨씬 낮은 가격에 확보하는 식이다. 저자는 비프런티어 연구소가 따라잡기 위해 사용하는 지렛대가 계속 바뀐다는 점이 자주 간과된다고 본다. 특히 중국 모델의 진전을 증류만으로 설명하는 것은 현재 훈련 체제에서 강화학습 환경이 갖는 중요성을 놓치는 시각이라고 지적한다.
6. 수익성, 제품 채택, 그리고 오픈 모델의 견고성 문제
글은 OpenAI와 Anthropic 같은 기업들이 코드와 터미널 과제에서 가진 사업 채택상의 우위가 매출 성장에 얼마나 중요한지 묻는다. 기업 고객들은 훨씬 저렴한 오픈 모델이 비슷한 역할을 할 수 있다면 토큰 지출을 줄이고 싶어 할 가능성이 크다. 만약 에이전트형 코딩 능력이 포화되고 AI 성능의 ‘프런티어’가 다른 곳으로 이동한다면, 대기업 매출의 상당 부분은 모델 자체의 압도적 우위보다 고객 관계, 관성, 더 나은 제품 개발에 의존하게 될 수 있다. 저자는 프런티어 연구소들이 AI 인프라 확장 비용을 수익화하기 위해 계속 스스로와 분야의 전망을 재발명해야 한다고 본다. 동시에 중국의 선도 오픈 모델들은 벤치마크에 다소 더 집중하는 인센티브가 있지만, 그것이 단순한 과적합이라는 설명은 순진하고 부정확하며 실제 혁신과 과장된 서사가 섞여 있다고 평가한다.
🧾 핵심 주장 / 시사점
- 오픈-폐쇄 모델 격차를 볼 때는 종합 점수보다 과제 영역별 능력, 실제 사용 맥락, 훈련 데이터와 환경의 접근성을 함께 봐야 한다.
- 벤치마크가 새로운 산업 초점을 뒤따라 바뀌는 만큼, 특정 벤치마크에서의 추격이 곧 실제 제품 경쟁력의 완전한 추격을 뜻하지는 않는다.
- 프런티어 기업의 장기 수익성은 현재의 코딩·터미널 우위가 아니라, 다음으로 가치 있는 에이전트형 지식 노동 사용 사례를 얼마나 계속 만들어내는지에 달려 있다.
✅ 액션 아이템
- 원문에서 강조한 핵심 변화와 이해관계자를 기준으로 Reading today의 영향을 정리한다.
- 다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
- 기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
- 후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.
❓ 열린 질문
- As Anthropic suspends access to new models, India debates its AI future TechCrunch]]" "52. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
- Andrej Karpathy, OpenAI founding member and inventor of ‘vibe coding,’ defects to Anthropic Fortune" "181. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
- Cloudflare can fix it now." "205. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
- OpenAI launches new Codex tools for white collar work TechCrunch" "[[83. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?