How much does it cost to train frontier AI models?
Quick Summary
Epoch AI는 프런티어 AI 모델의 최종 훈련 비용이 2016년 이후 연 2~3배 수준으로 빠르게 증가해 왔으며, 현재 추세가 이어지면 2027년 최대 규모 훈련 실행은 10억 달러를 넘을 수 있다고 분석한다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
Epoch AI는 프런티어 AI 모델의 최종 훈련 비용이 2016년 이후 연 2~3배 수준으로 빠르게 증가해 왔으며, 현재 추세가 이어지면 2027년 최대 규모 훈련 실행은 10억 달러를 넘을 수 있다고 분석한다.
📌 핵심 요약
- Epoch AI는 공개 데이터가 부족한 프런티어 AI 훈련 비용을 추정하기 위해 하드웨어 감가상각과 에너지, 클라우드 임대 비용, R&D 인건비를 각각 반영하는 세 가지 접근법을 제시했다.
- 45개 프런티어 모델을 대상으로 한 주된 추정에서는 최종 훈련 실행의 하드웨어 감가상각 및 에너지 비용이 2016년 이후 연 2.4배 속도로 증가한 것으로 나타났다.
- 클라우드 임대 가격을 적용한 대안 추정에서도 성장률은 연 2.6배로 비슷했지만, 많은 모델이 자체 보유 하드웨어에서 훈련된다는 점 때문에 비용 추정치는 평균적으로 약 두 배 높게 나왔다.
- GPT-3, OPT-175B, GPT-4, Gemini Ultra 등 일부 모델의 개발 비용을 자세히 나누어 보면 하드웨어가 47~67%로 가장 크고, R&D 인건비도 29~49%로 큰 비중을 차지했으며, 에너지는 2~6%였다.
- 저자들은 비용 증가가 계속되면 대규모 자본과 전력 인프라를 확보할 수 있는 소수 조직만 프런티어 모델 개발을 지속할 수 있어 혁신과 영향력이 집중될 수 있다고 경고한다.
🧩 주요 포인트
- Epoch AI는 공개 데이터가 부족한 프런티어 AI 훈련 비용을 추정하기 위해 하드웨어 감가상각과 에너지, 클라우드 임대 비용, R&D 인건비를 각각 반영하는 세 가지 접근법을 제시했다.
- 45개 프런티어 모델을 대상으로 한 주된 추정에서는 최종 훈련 실행의 하드웨어 감가상각 및 에너지 비용이 2016년 이후 연 2.4배 속도로 증가한 것으로 나타났다.
- 클라우드 임대 가격을 적용한 대안 추정에서도 성장률은 연 2.6배로 비슷했지만, 많은 모델이 자체 보유 하드웨어에서 훈련된다는 점 때문에 비용 추정치는 평균적으로 약 두 배 높게 나왔다.
- GPT-3, OPT-175B, GPT-4, Gemini Ultra 등 일부 모델의 개발 비용을 자세히 나누어 보면 하드웨어가 47~67%로 가장 크고, R&D 인건비도 29~49%로 큰 비중을 차지했으며, 에너지는 2~6%였다.
- 저자들은 비용 증가가 계속되면 대규모 자본과 전력 인프라를 확보할 수 있는 소수 조직만 프런티어 모델 개발을 지속할 수 있어 혁신과 영향력이 집중될 수 있다고 경고한다.
🧠 상세 정리
1. 문제의식과 연구 목적
글은 프런티어 AI 모델 훈련 비용이 최근 몇 년 동안 급격히 커졌지만, 그 규모와 증가 속도를 파악할 공개 데이터가 제한적이라는 문제에서 출발한다. Epoch AI는 이 공백을 메우기 위해 새로운 논문에서 상세한 비용 모델을 만들고, 최대 45개 프런티어 모델의 훈련 비용을 추정했다. 이 연구는 2024 AI Index에 실렸던 비용 추정의 기반이 되며, 단일 숫자보다 여러 추정 방식을 통해 비용 구조를 더 입체적으로 보려는 접근을 취한다. 핵심 질문은 최상위 AI 모델 훈련이 얼마나 비싸졌고, 그 비용이 앞으로 어떤 제약으로 작용할 수 있는가이다.
2. 하드웨어 감가상각과 에너지 기준의 주된 추정
가장 중요한 접근법은 모델의 최종 훈련 실행 동안 사용된 하드웨어의 감가상각 비용과 에너지 소비를 합산하는 방식이다. 하드웨어에는 AI 가속기 칩, 서버, 상호연결 장비가 포함되며, 연구진은 개발사의 공개 자료나 신뢰할 수 있는 제3자 보도를 활용해 하드웨어 종류와 수량, 훈련 기간을 추정했다. 이 방법으로 출시 당시 훈련 컴퓨트 기준 상위 10위권에 들었던 45개 프런티어 모델을 분석한 결과, 최종 훈련 실행 비용은 2016년 이후 연 2.4배 속도로 증가한 것으로 나타났다. 비용 계산에는 훈련 칩-시간, 감가상각된 하드웨어 비용, 클러스터 수준 네트워킹 오버헤드가 반영되었다.
3. 클라우드 임대 비용 접근과 그 한계
두 번째 접근법은 같은 훈련을 클라우드에서 임대한 하드웨어로 수행한다고 가정해 비용을 계산하는 방식이다. 클라우드 사업자는 칩-시간당 정액 가격을 부과하므로 계산은 비교적 단순하며, 전력과 상호연결 비용도 가격 안에 포함된 것으로 처리된다. 이 방식에서도 비용 증가율은 연 2.6배로 주된 방식과 매우 유사하게 나왔다. 다만 많은 프런티어 모델은 실제로 임대 클라우드가 아니라 개발사가 보유한 하드웨어에서 훈련되기 때문에, 이 방식의 추정치는 하드웨어 감가상각 및 에너지 방식보다 평균적으로 약 두 배 높게 나타났다.
4. 개별 모델 개발 비용의 세부 구조
연구진은 GPT-3, OPT-175B, GPT-4, Gemini Ultra 같은 일부 모델에 대해서는 최종 훈련 실행뿐 아니라 지원 실험에 들어간 컴퓨트 비용과 R&D 인력 보상까지 포함해 개발 비용을 더 깊게 추정했다. 그 결과 AI 가속기 칩, 기타 서버 구성요소, 상호연결 하드웨어를 합친 하드웨어 비용이 전체의 47~67%로 가장 큰 비중을 차지했다. 그러나 R&D 인건비도 29~49%로 매우 커서, 프런티어 모델 개발비가 단순히 컴퓨트 구매 비용만으로 설명되지 않음을 보여준다. 에너지 소비는 전체 비용의 2~6%로 상대적으로 작았지만, 훈련에 필요한 전력 용량 자체는 상당했다.
5. 전력 수요와 비용 증가가 만드는 제약
에너지가 총비용에서 차지하는 비율은 작지만, 대형 모델 훈련에 필요한 전력 인프라는 별도의 중요한 제약으로 제시된다. 본문은 Gemini Ultra의 경우 약 35메가와트의 전력 용량이 필요했을 것으로 추정한다. 또한 과거 전력 요구 증가 추세를 단순 외삽하면 2029년에는 AI 슈퍼컴퓨터가 기가와트 규모의 전력 공급을 필요로 할 수 있다고 설명한다. 비용 측면에서도 추세가 이어질 경우 2027년에는 최대 규모 훈련 실행 비용이 10억 달러를 넘을 수 있으며, 이는 충분한 자본을 조달할 수 있는 조직만 경쟁을 지속할 가능성을 높인다.
6. 시사점, 공개 자료, 업데이트
글의 결론은 훈련 비용의 급증이 프런티어 AI 개발의 혁신과 거버넌스에 중대한 영향을 줄 수 있다는 것이다. 소수의 대형 조직만 비용을 감당할 수 있다면 프런티어 AI 개발에 대한 영향력이 집중될 수 있고, 투자자가 경제적 수익을 충분히 납득하지 못하면 필요한 하드웨어를 구매할 자본 조달도 어려워질 수 있다. 연구진은 투자와 전력 용량을 향후 스케일링의 잠재적 병목으로 제시하며, 자세한 방법론과 데이터는 arXiv 논문 및 GitHub 코드와 데이터로 제공한다고 안내한다. 이후 2025년 1월 13일 업데이트에서는 포함되지 말았어야 할 파인튜닝 모델을 제거하고, 신뢰구간 표기와 그림 생성용 랜덤 시드를 조정했지만, 소수점 한 자리 기준 성장률 수치는 바뀌지 않았다고 밝혔다.
🧾 핵심 주장 / 시사점
- 프런티어 모델 훈련 비용의 핵심은 전기요금보다 하드웨어 투자와 R&D 인력 비용에 있으며, 비용 구조를 이해하려면 최종 훈련 실행뿐 아니라 실험 단계까지 포함해 봐야 한다.
- 클라우드 임대 가격 기반 추정은 계산이 단순하고 비교 지표로 유용하지만, 자체 보유 하드웨어에서 훈련하는 경우가 많은 프런티어 모델에는 비용을 높게 잡는 경향이 있다.
- 비용 증가 추세가 유지된다면 프런티어 AI 개발의 병목은 알고리즘이나 데이터만이 아니라 자본 조달 능력과 전력 인프라 확보 능력으로도 옮겨갈 수 있다.
✅ 액션 아이템
- 하드웨어 감가상각·에너지·클라우드 임대료·R&D 인건비를 함께 반영한 3개 추정 모델로 비용 산식의 입력항을 통일한다.
- 연 2.4~2.6배 성장률을 적용해 2027년 최대 훈련 실행비 10억달러 초과 위험을 연도별로 점검하고 민감도를 산출한다.
- GPT-3·OPT-175B·GPT-4·Gemini Ultra의 비용 구성비(하드웨어 47~67%, R&D 29~49%, 에너지 2~6%)를 반영해 투자 배분 우선순위를 재정의한다.
❓ 열린 질문
- 자체 보유 하드웨어 모델에 대해 클라우드 임대 추정이 평균 두 배 이상 높은 원인은 감가상각 기준의 차이인가, 단가 가정의 차이인가, 아니면 처리량 가정인가?
- 현재 연 2~3배 증가 추세가 이어질 때 2027년 10억달러 임계치 초과 예측의 핵심 변동 요인은 어떤 시장 지표가 될 것인가?
- 대규모 자본과 전력 인프라를 보유한 소수 조직으로 혁신이 집중될 때 허용 가능한 집중 임계점은 어떻게 판단할 것인가?