Algorithmic progress in language models
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
Epoch AI는 사전학습 언어모델에서 같은 성능에 필요한 컴퓨트가 약 8개월마다 절반으로 줄었지만, 지난 10년의 성능 향상은 알고리즘 혁신보다 컴퓨트와 데이터 확장의 영향이 더 컸다고 분석한다.
📌 핵심 요약
- 글은 2012년의 언어모델이 일관된 문장 생성에도 어려움을 겪던 순환신경망 중심의 단계에서, 오늘날 GPT-4 같은 모델이 수억 명의 사용자와 다양한 작업을 지원하는 단계로 급격히 발전한 배경을 설명한다.
- Epoch AI의 새 논문은 언어모델 사전학습에서의 알고리즘 개선을 정량 분석하며, 특정 성능 수준에 도달하는 데 필요한 컴퓨트가 대략 8개월마다 절반으로 줄었다고 추정한다.
- 그러나 Shapley value 분석에 따르면 최근 성능 향상의 60~95%는 컴퓨트와 학습 데이터의 증가에서, 5~40%는 새로운 알고리즘에서 비롯된 것으로 나타난다.
- Transformer 아키텍처는 거의 2년치 알고리즘 진전에 해당하는 효과를 냈고, Chinchilla scaling laws는 8~16개월치 알고리즘 진전에 해당하는 효과를 낸 것으로 분석된다.
- 연구는 개별 혁신의 효과 추정, 컴퓨트 확장과 알고리즘 개선의 분리, 스케일별 효과 차이, 모델링 방식의 불확실성이라는 한계를 인정하며 향후 진전 속도는 아직 불명확하다고 결론짓는다.
🧩 주요 포인트
- 글은 2012년의 언어모델이 일관된 문장 생성에도 어려움을 겪던 순환신경망 중심의 단계에서, 오늘날 GPT-4 같은 모델이 수억 명의 사용자와 다양한 작업을 지원하는 단계로 급격히 발전한 배경을 설명한다.
- Epoch AI의 새 논문은 언어모델 사전학습에서의 알고리즘 개선을 정량 분석하며, 특정 성능 수준에 도달하는 데 필요한 컴퓨트가 대략 8개월마다 절반으로 줄었다고 추정한다.
- 그러나 Shapley value 분석에 따르면 최근 성능 향상의 60~95%는 컴퓨트와 학습 데이터의 증가에서, 5~40%는 새로운 알고리즘에서 비롯된 것으로 나타난다.
- Transformer 아키텍처는 거의 2년치 알고리즘 진전에 해당하는 효과를 냈고, Chinchilla scaling laws는 8~16개월치 알고리즘 진전에 해당하는 효과를 낸 것으로 분석된다.
- 연구는 개별 혁신의 효과 추정, 컴퓨트 확장과 알고리즘 개선의 분리, 스케일별 효과 차이, 모델링 방식의 불확실성이라는 한계를 인정하며 향후 진전 속도는 아직 불명확하다고 결론짓는다.
🧠 상세 정리
1. 언어모델 성능 향상의 출발점
글은 2012년의 언어모델이 일관된 문장을 만드는 데도 어려움을 겪던 순환신경망 중심이었다는 사실에서 출발한다. 이후 현재의 GPT-4 같은 언어모델은 수억 명의 활성 사용자를 돕고 여러 영역의 작업을 수행할 수 있는 수준에 이르렀다. 저자들은 이 급격한 발전이 단순히 한 가지 요인으로 설명되지 않는다고 본다. 학습에 투입된 컴퓨트가 크게 늘어난 것은 중요한 원인이지만, 더 나은 모델 구조와 최적화 기법, 그 밖의 알고리즘 혁신도 같은 성능에 필요한 컴퓨트를 줄이는 역할을 했다.
2. 알고리즘 진전의 측정 방식과 핵심 추정치
Epoch AI의 논문은 언어모델 사전학습에서 발생한 알고리즘 개선을 정량적으로 분석하려는 시도다. 연구는 231개 언어모델의 성능을 로그 perplexity로, 규모를 FLOP으로 측정해 시간과 스케일에 따른 변화를 살핀다. 그 결과 특정 성능 수준을 달성하는 데 필요한 컴퓨트가 대략 8개월마다 절반으로 줄어든 것으로 추정된다. 95% 신뢰구간은 5개월에서 14개월이며, 이는 여러 다른 컴퓨팅 분야의 알고리즘 진전 및 무어의 법칙으로 표현되는 하드웨어 개선 속도보다 빠른 수준으로 제시된다.
3. 컴퓨트 확장과 알고리즘 혁신의 상대적 기여
저자들은 알고리즘 개선이 성능 향상에 얼마나 기여했는지를 컴퓨트 확장과 비교한다. Shapley value 분석에 따르면 성능 향상의 60~95%는 더 많은 컴퓨트와 학습 데이터에서 나온 반면, 새로운 알고리즘은 5~40% 정도를 담당한 것으로 나타난다. 또한 2018년 무렵 컴퓨트 확장이 가속되면서 알고리즘 개선의 상대적 중요성은 시간이 지날수록 감소한 것으로 분석된다. 따라서 최근 몇 년의 언어모델 성능 향상은 근본적인 알고리즘 도약보다는 대규모 컴퓨트 투입의 효과가 더 컸다는 것이 글의 중심 결론 중 하나다.
4. Transformer와 Chinchilla scaling laws의 효과
글은 전체 추세뿐 아니라 특히 중요한 두 가지 알고리즘 혁신도 별도로 분석한다. 첫 번째는 현재 최고 수준 언어모델의 기반이 되는 Transformer 아키텍처다. 연구진은 Transformer의 도입이 언어모델 분야에서 거의 2년치 알고리즘 진전에 해당하는 효과를 냈다고 추정하며, 그 중요성을 강조한다. 두 번째는 Hoffmann 등 2022년 연구의 Chinchilla scaling laws로, 이는 8개월에서 16개월치 알고리즘 진전에 해당하는 효과를 낸 것으로 분석된다. 두 사례는 알고리즘 혁신이 비록 전체 기여에서 컴퓨트 확장보다 작게 나타나더라도, 특정 전환점에서는 매우 큰 효율 개선을 만들 수 있음을 보여준다.
5. 분석의 한계와 불확실성
저자들은 이번 분석이 언어모델 알고리즘 진전을 이해하는 데 상당한 진전을 제공하지만 여러 한계가 있다고 밝힌다. 첫째, 모델은 특정 혁신 하나하나의 영향을 안정적으로 추정하지 못한다. 둘째, 역사적으로 알고리즘 개선과 컴퓨트 확장이 함께 일어난 경우가 많아 두 요인의 상대적 기여를 깔끔하게 분리하기 어렵다. 셋째, 어떤 혁신이 성능을 얼마나 개선하는지는 모델 스케일에 따라 달라지므로, 이 분석을 작은 컴퓨트 예산의 모델 성능 예측에 단순 적용할 수 없다. 마지막으로 알고리즘 진전을 어떤 방식으로 모델링해야 하는지에도 상당한 불확실성이 있으며, 더 많고 더 좋은 데이터 없이는 이 문제를 해결하기 어렵다고 설명한다.
6. 향후 전망과 연구의 결론
글은 앞으로도 비슷한 속도의 알고리즘 진전이 이어질지에 대해서는 명확히 답하기 어렵다고 말한다. 향후 진전은 컴퓨트와 알고리즘 양쪽 모두에서 투자 증가 속도, 그리고 AI가 인간 노동을 어느 정도 대체할 수 있는지에 달려 있다고 설명한다. 또한 이번 연구는 사전학습 단계의 알고리즘 진전에 초점을 맞추며, 성능 개선의 또 다른 핵심 동력인 사후학습 향상은 포함하지 않는다. 그럼에도 연구는 지난 10년간 언어모델 능력이 얼마나 빠르게 향상되었는지, 그리고 그중 효율 개선과 스케일 확장이 각각 어떤 역할을 했는지를 정량적으로 보여준다. 결론적으로 언어모델 효율 개선 속도는 다른 소프트웨어 분야보다 빠르지만, 지난 10년 동안에는 컴퓨트 확장이 더 큰 비중을 차지했다는 점을 강조한다.
🧾 핵심 주장 / 시사점
- 언어모델 발전을 이해할 때 단순한 성능 수치보다, 같은 성능을 내는 데 필요한 컴퓨트가 얼마나 줄었는지를 보는 ‘효율’ 관점이 중요하다.
- Transformer와 Chinchilla scaling laws처럼 큰 효과를 낸 혁신이 있었지만, 전체 역사적 성능 향상에서는 컴퓨트와 데이터 확장이 더 큰 몫을 차지했다.
- 미래의 진전 속도는 이번 분석만으로 단정하기 어렵고, 사전학습 외의 사후학습 개선과 투자 증가, AI의 노동 대체 가능성까지 함께 고려해야 한다.
✅ 액션 아이템
- 요약의 기여도 분해에 따라 성능 향상 원인을 컴퓨트·데이터(60~95%)와 알고리즘(5~40%)로 수치 우선순위 정렬해 정리한다.
- 동일 성능 도달 시 8개월마다 컴퓨트가 약 절반으로 줄어든 추세를 추적해 비용 효율 개선 속도를 점검한다.
- Transformer 기여를 2년치, Chinchilla scaling laws 기여를 8~16개월치로 대응시켜 신규 모델 비교 시 기준축을 정의한다.
❓ 열린 질문
- 10년간의 향상에서 컴퓨트·데이터 우위가 계속되면 언제부터 성능 개선의 구동축이 바뀔 것인가?
- 스케일별 효과 차이가 존재한다는 조건에서 개별 혁신 효과 분리가 불안정한 경우, 60~95%/5~40% 비중의 해석은 어떻게 안정화할 것인가?
- 개인 사용자 경험 단계에서 2012년 RNN 한계 대비 GPT-4 규모 확장으로의 전환이 동일한 메커니즘으로 설명 가능한 것인가?