DeepSeek-R1, An Affordable Rival to OpenAI’s o1

🖼️ 인포그래픽

DeepSeek-R1, An Affordable Rival to OpenAI’s o1 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

DeepSeek-R1은 긴 추론 과정을 거쳐 답을 내는 공개 모델로, OpenAI o1과 경쟁할 성능을 보이면서도 자유로운 사용·수정과 낮은 API 비용을 내세운다.

📌 핵심 요약

DeepSeek는 DeepSeek-V3-Base를 기반으로 한 추론 모델 DeepSeek-R1을 공개했으며, 코드와 가중치는 상업적·개인적 사용과 R1 출력 기반의 새 모델 학습까지 허용하는 라이선스로 제공된다.
R1은 Mixture of Experts 구조를 쓰는 6710억 파라미터 모델로, 한 번에 370억 파라미터만 활성화하며 12만8000토큰의 입력 컨텍스트를 처리한다.
훈련은 장문 chain-of-thought 예시, 강화학습, R1 중간 버전이 생성한 정답 응답, 비추론 예시, 최종 강화학습을 포함한 네 단계 미세조정으로 구성됐다.
DeepSeek는 R1 외에도 강화학습만으로 미세조정한 R1-Zero와 1.5B부터 70B까지 여섯 개의 dense 모델을 공개했으며, 일부는 Qwen과 Llama 계열을 기반으로 한다.
DeepSeek 자체 평가에서 R1은 11개 벤치마크 중 5개에서 o1을 앞섰고, Claude 3.5 Sonnet 및 GPT-4o와 비교해도 대부분의 벤치마크에서 더 높은 결과를 냈다.

🧩 주요 포인트

DeepSeek는 DeepSeek-V3-Base를 기반으로 한 추론 모델 DeepSeek-R1을 공개했으며, 코드와 가중치는 상업적·개인적 사용과 R1 출력 기반의 새 모델 학습까지 허용하는 라이선스로 제공된다.
R1은 Mixture of Experts 구조를 쓰는 6710억 파라미터 모델로, 한 번에 370억 파라미터만 활성화하며 12만8000토큰의 입력 컨텍스트를 처리한다.
훈련은 장문 chain-of-thought 예시, 강화학습, R1 중간 버전이 생성한 정답 응답, 비추론 예시, 최종 강화학습을 포함한 네 단계 미세조정으로 구성됐다.
DeepSeek는 R1 외에도 강화학습만으로 미세조정한 R1-Zero와 1.5B부터 70B까지 여섯 개의 dense 모델을 공개했으며, 일부는 Qwen과 Llama 계열을 기반으로 한다.
DeepSeek 자체 평가에서 R1은 11개 벤치마크 중 5개에서 o1을 앞섰고, Claude 3.5 Sonnet 및 GPT-4o와 비교해도 대부분의 벤치마크에서 더 높은 결과를 냈다.

🧠 상세 정리

1. DeepSeek-R1 공개와 핵심 특징

DeepSeek는 OpenAI o1에 맞설 수 있는 새 공개 모델 DeepSeek-R1을 발표했다. 이 모델은 답변을 내기 전에 긴 추론 과정을 수행하는 대규모 언어 모델로 소개된다. 코드와 가중치는 상업적·개인적 사용 모두에 자유롭게 허용되며, R1의 출력을 이용해 새로운 모델을 훈련하는 것도 가능하다. 논문은 명시적 프롬프트 없이 chain of thought를 구현하는 고성능 모델을 어떻게 훈련했는지 비교적 자세히 보여준다. 11월에 먼저 나온 DeepSeek-R1-lite-preview는 더 적은 파라미터와 다른 기반 모델을 사용한 별도 선행 버전으로 언급된다.

2. MoE 구조와 효율성

본문은 DeepSeek-R1을 이해하기 위한 배경으로 Mixture of Experts 구조를 설명한다. MoE는 모든 입력에 전체 파라미터를 쓰는 대신, 입력에 따라 서로 다른 일부 파라미터 집합을 사용한다. 각 MoE 층에는 여러 전문가 신경망이 있고, 그 앞의 게이팅 모듈이 입력을 보고 어떤 전문가를 사용할지 학습한다. 이 방식으로 전문가들은 서로 다른 유형의 예시에 특화될 수 있다. 모든 파라미터가 매번 활성화되지 않기 때문에, 비슷한 전체 규모의 일반 모델보다 에너지를 덜 쓰고 더 빠르게 실행될 수 있다는 점이 핵심이다.

3. 모델 규모, API 비용, 기반 아키텍처

DeepSeek-R1은 DeepSeek-V3-Base를 네 단계에 걸쳐 미세조정한 버전이며, chain of thought 처리 능력을 높이는 데 초점이 맞춰졌다. 모델은 6710억 개의 전체 파라미터를 가진 MoE 트랜스포머이지만, 특정 시점에 활성화되는 파라미터는 370억 개다. 입력 컨텍스트는 12만8000토큰까지 처리할 수 있다. DeepSeek API 기준 비용은 입력 100만 토큰당 0.55달러, 캐시된 입력은 0.14달러, 출력 100만 토큰당 2.19달러로 제시됐다. 본문은 비교 대상으로 o1의 입력 15달러, 캐시 입력 7.50달러, 출력 60달러 비용을 함께 언급하며 R1의 가격 경쟁력을 강조한다.

4. 네 단계 미세조정과 강화학습

훈련 과정은 장문 CoT 예시를 담은 합성 데이터셋에서 시작된다. 연구진은 DeepSeek-V3-Base에 긴 CoT 예시를 few-shot 방식으로 제공하거나, 모델이 자신의 추론 단계를 평가하고 재확인하며 상세 답변을 생성하도록 유도했고, 인간 주석자가 결과를 다듬고 처리했다. 이후 group relative policy optimization이라는 강화학습 알고리즘을 사용해 어려운 문제 해결 능력을 개선했다. 수학 문제의 경우 최종 답 형식을 맞추면 정확도 보상을 주고, 내부 CoT 단계를 태그 안에 표시하면 형식 보상을 주는 식의 규칙 기반 보상이 사용됐다. 이어 R1의 중간 버전들이 추론 프롬프트에 대해 생성한 약 60만 개의 정답 응답을 선별하고, 번역 쌍 같은 비추론 예시 20만 개를 섞어 추가 미세조정을 진행했다.

5. 관련 모델: R1-Zero와 여섯 개의 dense 모델

DeepSeek 연구진은 R1과 함께 일곱 개의 관련 모델도 공개했다. 그중 DeepSeek-R1-Zero는 R1과 유사하지만 미세조정을 전적으로 강화학습으로만 수행한 모델이다. 연구진은 R1-Zero가 문제 해결 전략을 단순히 인센티브를 통해 스스로 발전시킬 수 있었다고 설명한다. 다만 이 모델은 여러 언어를 섞어 쓰거나 읽기 어려운 출력을 생성할 가능성이 더 높았다는 한계도 제시된다. DeepSeek는 또한 15억, 70억, 80억, 140억, 320억, 700억 파라미터 규모의 dense 모델 여섯 개를 공개했으며, 이 중 네 개는 Qwen 계열, 두 개는 Llama 계열을 기반으로 한다.

6. 벤치마크 결과와 공개 추론 모델의 의미

DeepSeek의 자체 테스트에서 R1은 o1과 정면으로 경쟁했으며, 평가된 11개 벤치마크 중 5개에서 o1을 앞섰다. AIME 2024, MATH-500, SWE-Bench Verified에서는 o1보다 높은 성과를 보였고, Codeforces, GPQA Diamond, MMLU에서는 경쟁력 있는 결과를 냈다. 자주 갱신되는 코딩 문제를 포함하는 LiveCodeBench에서는 R1이 65.9%를 맞힌 반면 o1은 63.4%를 맞혔다. 또한 명시적 프롬프트 없이 chain of thought를 구현하지 않는 상위 모델들과 비교했을 때, Claude 3.5 Sonnet에는 21개 중 19개 벤치마크에서, GPT-4o에는 21개 중 20개 벤치마크에서 앞섰다. 본문은 o1과 o3가 추론 단계를 숨기는 반면 R1은 사용자가 답에 도달한 과정을 볼 수 있게 한다는 점을 중요한 차이로 제시한다.

🧾 핵심 주장 / 시사점

R1의 의미는 단순히 o1과 비슷한 성능을 낸다는 데 그치지 않고, 코드·가중치·출력 활용을 허용해 추론 모델의 재사용과 증류 가능성을 크게 넓힌다는 데 있다.
MoE 구조와 낮은 API 가격은 대규모 추론 모델이 반드시 높은 운영 비용과 폐쇄적 접근을 전제로 하지 않을 수 있음을 보여준다.
R1-Zero와 distillation 결과는 강화학습과 추론 출력이 더 작은 모델의 성능 향상에 교사 역할을 할 수 있음을 시사하지만, 출력 품질과 가독성 관리가 여전히 중요한 과제로 남는다.