DeepSeek-V3 Redefines LLM Performance and Cost Efficiency
Quick Summary
DeepSeek V3는 MoE 구조와 여러 학습 최적화를 바탕으로 주요 벤치마크에서 강한 성능을 보이면서도 매우 낮은 학습 비용을 제시해, 기초 모델 개발의 경제성을 다시 생각하게 만든다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
DeepSeek-V3는 MoE 구조와 여러 학습 최적화를 바탕으로 주요 벤치마크에서 강한 성능을 보이면서도 매우 낮은 학습 비용을 제시해, 기초 모델 개발의 경제성을 다시 생각하게 만든다.
📌 핵심 요약
- DeepSeek-V3는 항저우의 DeepSeek가 공개한 오픈 대형 언어 모델로, 주요 벤치마크에서 Llama 3.1 405B와 Qwen 2.5 72B를 전반적으로 앞섰고 GPT-4o와도 경쟁력 있는 성능을 보였다.
- 이 모델은 6,710억 개 파라미터를 가진 MoE 트랜스포머지만 한 순간에 활성화되는 파라미터는 370억 개이며, 입력마다 일부 전문가만 사용해 실행 효율을 높인다.
- DeepSeek는 약 15조 토큰으로 모델을 학습했고, DeepSeek-R1과 DeepSeek-V2.5가 생성한 출력으로 다양한 작업을 미세조정했으며, group relative policy optimization으로 여러 영역의 성능을 더 다듬었다.
- 학습에는 279만 GPU 시간이 사용됐고 비용은 560만 달러로 제시됐다. 이는 DeepSeek-V3가 크게 앞선 Llama 3.1 405B 학습 시간의 10분의 1 미만으로 설명된다.
- 글은 DeepSeek-V3의 결과가 재현 가능하다면 GPT-4o급 모델을 만드는 비용 장벽이 크게 낮아져 더 많은 팀이 최상위 모델 경쟁에 참여할 수 있다고 본다.
🧩 주요 포인트
- DeepSeek-V3는 항저우의 DeepSeek가 공개한 오픈 대형 언어 모델로, 주요 벤치마크에서 Llama 3.1 405B와 Qwen 2.5 72B를 전반적으로 앞섰고 GPT-4o와도 경쟁력 있는 성능을 보였다.
- 이 모델은 6,710억 개 파라미터를 가진 MoE 트랜스포머지만 한 순간에 활성화되는 파라미터는 370억 개이며, 입력마다 일부 전문가만 사용해 실행 효율을 높인다.
- DeepSeek는 약 15조 토큰으로 모델을 학습했고, DeepSeek-R1과 DeepSeek-V2.5가 생성한 출력으로 다양한 작업을 미세조정했으며, group relative policy optimization으로 여러 영역의 성능을 더 다듬었다.
- 학습에는 279만 GPU 시간이 사용됐고 비용은 560만 달러로 제시됐다. 이는 DeepSeek-V3가 크게 앞선 Llama 3.1 405B 학습 시간의 10분의 1 미만으로 설명된다.
- 글은 DeepSeek-V3의 결과가 재현 가능하다면 GPT-4o급 모델을 만드는 비용 장벽이 크게 낮아져 더 많은 팀이 최상위 모델 경쟁에 참여할 수 있다고 본다.
🧠 상세 정리
1. DeepSeek-V3의 등장과 공개 범위
글은 DeepSeek-V3를 성능과 비용 효율의 방정식을 바꿀 수 있는 새 모델로 소개한다. DeepSeek-V3는 핵심 벤치마크에서 Llama 3.1 405B와 GPT-4o를 상대로 강한 결과를 보였고, 특히 코딩과 수학에서 뛰어난 점수를 냈다고 설명된다. 모델 가중치는 공개되어 있지만 군사적 사용, 미성년자에게 해를 끼치는 용도, 허위 정보 생성 등 일부 적용에는 제한이 붙어 있다. 따라서 이 모델은 개발자가 내려받아 활용할 수 있는 오픈 모델이면서도, 사용 조건을 통해 위험한 활용을 제한하려는 형태로 제시된다.
2. MoE 구조가 제공하는 효율성의 기본 원리
원문은 DeepSeek-V3의 핵심 배경으로 MoE, 즉 전문가 혼합 구조를 설명한다. MoE에서는 각 입력을 처리할 때 전체 파라미터를 모두 쓰는 대신, 여러 전문가 네트워크 중 일부를 게이팅 모듈이 선택해 사용한다. 이 과정에서 서로 다른 전문가들은 서로 다른 유형의 예시에 특화될 수 있다. 모든 출력 생성에 전체 파라미터가 동원되지 않기 때문에, 비슷한 규모의 밀집 모델보다 에너지를 덜 쓰고 더 빠르게 동작할 수 있다는 점이 강조된다. DeepSeek-V3의 낮은 비용과 실행 효율을 이해하기 위한 핵심 전제다.
3. 모델 규모와 학습 방식
DeepSeek-V3는 6,710억 개 파라미터를 가진 MoE 트랜스포머이며, 실제로는 어느 순간에도 370억 개 파라미터만 활성화된다. 개발팀은 약 15조 토큰으로 모델을 학습했고, DeepSeek-V2보다 코딩과 수학 데이터의 비중을 더 크게 포함했다. 이후 DeepSeek-R1과 DeepSeek-V2.5가 생성한 출력을 이용해 다양한 작업에 맞춰 미세조정했다. 또한 group relative policy optimization이라는 강화학습 알고리즘을 적용해 여러 도메인에서 성능을 더 날카롭게 만들었다. 이 흐름은 단순한 규모 확대가 아니라 데이터 구성, 후처리 학습, 강화학습을 함께 사용한 접근으로 정리된다.
4. 성능 향상을 위한 추가 설계
원문은 DeepSeek-V3가 이전 연구와 DeepSeek-V2의 설계를 이어받아 여러 기법을 결합했다고 설명한다. 먼저 다음 한 토큰만 예측하는 대신 다음 두 토큰을 예측하도록 학습하면 성능이 좋아진다는 이전 연구를 반영했다. 모델은 첫 번째 토큰은 일반적인 방식으로 예측하고, 추가 레이어를 통해 두 번째 토큰 예측도 학습했지만 이 추가 레이어는 추론 시에는 쓰이지 않는다. 또한 DeepSeek-V2처럼 multi-head latent attention을 사용해 실행 중 메모리 사용량을 줄였다. 전문가 구성에서도 256개 중 8개의 라우팅 전문가를 선택하는 동시에 모든 입력을 처리하는 공유 전문가를 함께 사용한다.
5. 벤치마크 결과와 경쟁 모델 비교
DeepSeek의 자체 테스트에서 DeepSeek-V3는 Llama 3.1 405B와 Qwen 2.5 72B를 전반적으로 앞섰고, GPT-4o와 비교해도 유리한 성능을 보였다고 제시된다. 코딩과 수학 작업에서 특히 두드러졌으며, 코딩 분야에서는 테스트된 7개 벤치마크 중 5개에서 우세했다. 다만 모든 비교에서 최상위는 아니었다. 예를 들어 여러 프로그래밍 언어로 어려운 요청에 맞는 코드를 생성하는 Polyglot에서는 DeepSeek-V3가 48.5% 정확도로 Claude Sonnet 3.5의 45.3%를 앞섰지만, o1의 61.7%에는 뒤졌다. 언어 작업에서는 Claude 3.5 Sonnet과 엎치락뒤치락하는 수준으로 묘사된다.
6. o1과 다른 접근, 그리고 오픈 모델의 의미
글은 OpenAI의 o1 모델이 자기 출력에 대해 성찰하고 도구를 사용하는 등 에이전트적 워크플로를 통해 강점을 보인다고 설명한다. 반면 DeepSeek-V3는 그런 흐름에 기대지 않고도 뛰어난 결과를 얻었다는 점에서 다른 방향의 사례로 제시된다. 이 차이는 단순한 성능 비교를 넘어, 고성능 모델을 만드는 방법이 하나로 고정되어 있지 않다는 점을 보여준다. 또한 오픈 모델이 폐쇄형 모델에 계속 도전하면서, 개발자에게 수정과 배포가 가능한 고품질 선택지를 제공한다는 점도 중요하게 다뤄진다. DeepSeek-V3는 성능뿐 아니라 접근 가능성 측면에서도 의미를 갖는다.
7. 낮은 학습 비용이 던지는 경제적 함의
가장 큰 논점은 DeepSeek-V3의 학습 비용이다. 원문은 이 모델이 279만 GPU 시간, 560만 달러라는 매우 낮은 비용으로 학습됐다고 제시하며, 이는 DeepSeek-V3가 크게 앞선 Llama 3.1 405B 학습 시간의 10분의 1 미만이라고 설명한다. 개발팀은 정확한 원인을 세부적으로 밝히지는 않고 ‘세심한 엔지니어링 최적화’를 언급했지만, 글은 MoE의 지속적 개선이 핵심 요인일 가능성이 크다고 본다. 이전 DeepSeek-V2도 MoE를 통해 DeepSeek 67B보다 학습 비용을 40% 이상 줄였고, Microsoft, Google, Meta의 과거 보고 역시 MoE의 비용·성능 이점을 뒷받침한다. 만약 이 결과가 재현된다면 GPT-4o급 모델 개발 비용이 크게 낮아져 AI 거대 기업과 경쟁하는 문턱도 낮아질 수 있다.
🧾 핵심 주장 / 시사점
- DeepSeek-V3의 핵심 메시지는 단순히 더 큰 모델이 아니라, 선택적으로 파라미터를 쓰는 구조와 학습 최적화가 성능과 비용을 동시에 바꿀 수 있다는 점이다.
- 오픈 가중치 모델이 폐쇄형 최상위 모델과 가까운 성능을 보이면, 개발자는 모델을 직접 수정·배포할 수 있는 선택지를 갖게 되고 생태계 경쟁도 더 넓어진다.
- 560만 달러 수준의 비용 주장이 재현된다면, 기초 모델 학습은 소수 거대 기업만 가능한 영역이라는 인식이 약해질 수 있다.
✅ 액션 아이템
- DeepSeek-V3의 MoE 구조가 활성 파라미터를 370억 개로 줄여 실행 효율을 높인 방식을 내부 모델 설계 검토 항목으로 정리한다.
- 279만 GPU 시간과 560만 달러 학습 비용 수치를 기준으로, 유사 규모 모델 개발 시 비용 산정표의 비교 기준을 업데이트한다.
- DeepSeek-R1·V2.5 출력 기반 미세조정과 group relative policy optimization을 성능 개선 후보 방법으로 분류한다.
❓ 열린 질문
- DeepSeek-V3의 벤치마크 우위가 실제 제품 과제에서도 Llama 3.1 405B·Qwen 2.5 72B 대비 유지될까?
- MoE 구조에서 입력마다 일부 전문가만 사용하는 방식이 실행 효율 외에 응답 품질이나 안정성에 어떤 영향을 줄까?
- 제시된 560만 달러 학습 비용이 재현 가능하다면 최상위 모델 경쟁에 참여할 수 있는 팀의 범위는 얼마나 넓어질까?