Welcome GPT OSS, the new open-source model family from OpenAI!
Quick Summary
OpenAI의 GPT OSS는 Apache 2.0으로 공개된 20B·120B 오픈 웨이트 추론 모델군으로, Hugging Face 생태계에서 API·로컬 추론·GPU별 최적화를 통해 폭넓게 활용할 수 있도록 소개된다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
OpenAI의 GPT OSS는 Apache 2.0으로 공개된 20B·120B 오픈 웨이트 추론 모델군으로, Hugging Face 생태계에서 API·로컬 추론·GPU별 최적화를 통해 폭넓게 활용할 수 있도록 소개된다.
📌 핵심 요약
- GPT OSS는 OpenAI가 공개한 오픈 웨이트 모델군으로, 117B 파라미터의 gpt-oss-120b와 21B 파라미터의 gpt-oss-20b 두 모델로 구성된다.
- 두 모델은 mixture-of-experts 구조와 MXFP4 4비트 양자화를 사용해 전체 파라미터는 크지만 활성 파라미터 수와 메모리 사용량을 줄였고, 120B는 단일 H100, 20B는 16GB 메모리 환경을 목표로 한다.
- Hugging Face는 Inference Providers를 통해 OpenAI 호환 Chat Completions API와 Responses API 예시를 제공하며, Cerebras와 Fireworks AI 같은 제공자를 같은 코드 형태로 사용할 수 있다고 설명한다.
- 로컬 추론은 transformers v4.55.1 이상, accelerate, kernels, triton 3.4 이상을 중심으로 안내되며, CUDA 환경에서는 MXFP4, Hopper 계열에서는 Flash Attention 3, 그 외 일부 환경에서는 MegaBlocks MoE 커널이 권장된다.
- 글은 GPT OSS의 구조, 라이선스, 추론 방식, 하드웨어별 최적화, AMD ROCm 초기 지원, 다중 GPU 실행 예시를 차례로 설명하며 개발자들이 모델을 직접 배포·실험할 수 있도록 실용적 사용 경로를 제시한다.
🧩 주요 포인트
- GPT OSS는 OpenAI가 공개한 오픈 웨이트 모델군으로, 117B 파라미터의 gpt-oss-120b와 21B 파라미터의 gpt-oss-20b 두 모델로 구성된다.
- 두 모델은 mixture-of-experts 구조와 MXFP4 4비트 양자화를 사용해 전체 파라미터는 크지만 활성 파라미터 수와 메모리 사용량을 줄였고, 120B는 단일 H100, 20B는 16GB 메모리 환경을 목표로 한다.
- Hugging Face는 Inference Providers를 통해 OpenAI 호환 Chat Completions API와 Responses API 예시를 제공하며, Cerebras와 Fireworks AI 같은 제공자를 같은 코드 형태로 사용할 수 있다고 설명한다.
- 로컬 추론은 transformers v4.55.1 이상, accelerate, kernels, triton 3.4 이상을 중심으로 안내되며, CUDA 환경에서는 MXFP4, Hopper 계열에서는 Flash Attention 3, 그 외 일부 환경에서는 MegaBlocks MoE 커널이 권장된다.
- 글은 GPT OSS의 구조, 라이선스, 추론 방식, 하드웨어별 최적화, AMD ROCm 초기 지원, 다중 GPU 실행 예시를 차례로 설명하며 개발자들이 모델을 직접 배포·실험할 수 있도록 실용적 사용 경로를 제시한다.
🧠 상세 정리
1. GPT OSS 공개의 성격과 모델 구성
글은 OpenAI의 새로운 오픈소스 모델군인 GPT OSS를 Hugging Face 커뮤니티가 환영하는 형식으로 시작한다. GPT OSS는 강력한 추론, 에이전트형 작업, 다양한 개발자 활용 사례를 겨냥한 오픈 웨이트 릴리스로 소개된다. 모델은 117B 파라미터 규모의 gpt-oss-120b와 21B 파라미터 규모의 gpt-oss-20b 두 가지다. 두 모델 모두 mixture-of-experts 구조를 사용하며, 전체 파라미터 수와 실제 활성 파라미터 수를 구분해 빠른 추론과 낮은 자원 사용을 동시에 목표로 한다.
2. 라이선스와 공개 생태계에 대한 의미
GPT OSS 모델들은 Apache 2.0 라이선스와 간단한 사용 정책 아래 제공된다고 설명된다. 사용 정책의 핵심은 도구가 안전하고 책임 있게, 민주적으로 사용되기를 지향하면서도 사용자가 활용 방식을 최대한 통제할 수 있게 한다는 점이다. 글은 이 공개가 OpenAI가 오픈소스 생태계에 기여하겠다는 약속의 의미 있는 단계라고 평가한다. 또한 많은 활용 사례가 프라이빗 배포나 로컬 배포를 필요로 하기 때문에, Hugging Face는 이 모델들이 장기적으로 영향력 있고 영감을 주는 모델이 될 것이라고 기대한다.
3. 모델 능력과 아키텍처의 핵심 특징
개요 부분은 두 모델의 총 파라미터와 활성 파라미터 수를 구체적으로 제시한다. gpt-oss-20b는 총 21B 파라미터 중 3.6B 활성 파라미터를 사용하고, gpt-oss-120b는 총 117B 파라미터 중 5.1B 활성 파라미터를 사용한다. 두 모델은 텍스트 전용 추론 모델이며 chain-of-thought와 조절 가능한 reasoning effort 수준을 지원한다고 설명된다. 명령 따르기와 도구 사용도 지원하고, transformers, vLLM, llama.cpp, ollama를 통한 추론 구현이 언급된다. 라이선스는 Apache 2.0이며, OpenAI의 Responses API가 추론 인터페이스로 권장된다.
4. MoE, 양자화, 컨텍스트 처리 방식
아키텍처 설명에서는 token-choice MoE와 SwiGLU 활성화 함수가 핵심으로 제시된다. MoE 가중치를 계산할 때는 선택된 expert 위에서 softmax를 적용하는 softmax-after-topk 방식이 쓰인다. 각 attention layer는 RoPE를 사용하며 128K 컨텍스트를 다룬다고 설명된다. attention layer는 전체 컨텍스트 방식과 128토큰 슬라이딩 윈도우 방식을 교대로 사용하고, per-head learned attention sink를 포함한다. 토크나이저는 GPT-4o 및 다른 OpenAI API 모델과 동일하며, Responses API 호환성을 위해 새로운 토큰도 추가되었다.
5. Hugging Face Inference Providers를 통한 API 접근
글은 GPT OSS 모델을 Hugging Face Inference Providers 서비스로 사용할 수 있다고 안내한다. 이 서비스는 지원되는 여러 제공자에게 동일한 JavaScript 또는 Python 코드로 요청을 보낼 수 있게 하며, gpt-oss.com의 OpenAI 공식 데모에도 사용되는 인프라라고 설명된다. 예시에서는 Hugging Face 라우터 URL을 OpenAI 클라이언트의 base_url로 설정하고, HF_TOKEN을 API 키로 사용한다. Chat Completions API 예시는 Cerebras 제공자의 openai/gpt-oss-120b 모델을 호출하고, 별도 예시에서는 Fireworks AI 제공자의 gpt-oss-20b를 Responses API로 호출한다.
6. transformers 기반 로컬 추론 준비
로컬 추론 섹션은 최신 transformers 릴리스가 필요하다고 밝히며, v4.55.1 이상과 accelerate, kernels 설치를 요구한다. CUDA 하드웨어에서 MXFP4 양자화를 사용하려면 triton 3.4 이상도 권장된다. 글은 MXFP4가 원래 Hopper나 Blackwell 계열 GPU에서 제공되던 형식이지만, triton 3.4와 kernels 라이브러리를 함께 설치하면 Ada, Ampere, Tesla를 포함한 이전 CUDA 아키텍처에서도 최적화 커널을 첫 사용 시 다운로드해 사용할 수 있다고 설명한다. 이 구성에서는 20B 모델을 16GB GPU에서 실행할 수 있고, 호환 조건이 맞지 않으면 bfloat16으로 fallback되어 약 48GB 메모리가 필요하다고 안내한다.
7. Flash Attention 3와 attention sink 최적화
GPT OSS 모델은 attention sinks라는 기법을 사용하며, 글은 vLLM 팀이 이를 Flash Attention 3와 호환되게 만들었다고 설명한다. Hugging Face 측은 이 최적화 커널을 kernels-community/vllm-flash-attn3 패키지로 통합했다고 밝힌다. 작성 시점 기준으로 이 고속 커널은 Hopper 카드와 PyTorch 2.7 및 2.8에서 테스트되었고, 향후 지원 범위가 넓어질 것으로 기대된다. H100이나 H200 같은 Hopper 카드에서 모델을 실행하는 경우 kernels를 업그레이드하고, transformers 모델 로딩 시 attn_implementation에 해당 커널을 지정하는 방식이 제시된다.
8. GPU 환경별 최적화 선택지
글은 가능하다면 MXFP4를 우선 사용하라고 권장한다. 추가로 Flash Attention 3를 사용할 수 있는 환경이라면 이를 활성화하는 것이 좋다고 설명한다. GPU가 MXFP4와 호환되지 않는 경우에는 MegaBlocks MoE 커널을 사용해 속도 향상을 얻을 수 있으며, transformers 모델 로딩 시 use_kernels=True를 지정하는 예시가 제시된다. 다만 MegaBlocks 최적화 MoE 커널은 모델을 bfloat16으로 실행해야 하므로 MXFP4보다 메모리 사용량이 커진다. 따라서 권장 순서는 MXFP4가 가능하면 MXFP4를 사용하고, 그렇지 않은 경우 MegaBlocks를 선택하는 방식으로 정리된다.
9. AMD ROCm 지원과 최적화 표의 의미
글은 OpenAI GPT OSS가 AMD Instinct 하드웨어에서 검증되었다고 밝히며, kernels 라이브러리에서 AMD ROCm 플랫폼에 대한 초기 지원이 제공된다고 설명한다. 이는 transformers에서 향후 최적화된 ROCm 커널을 제공하기 위한 기반으로 소개된다. MegaBlocks MoE 커널 가속은 AMD Instinct, 특히 MI300 계열에서 이미 사용할 수 있어 훈련과 추론 성능 개선에 도움을 준다고 적혀 있다. 최적화 요약 표는 Hopper GPU에서는 MXFP4와 Flash Attention 3를, 16GB 이상 CUDA GPU에서는 MXFP4를, 그 외 CUDA GPU와 AMD Instinct에서는 MegaBlocks MoE 커널을 권장하는 식으로 하드웨어별 선택지를 정리한다.
10. 120B 모델의 단일·다중 GPU 실행
글은 gpt-oss-120b가 MXFP4를 사용하면 단일 H100 GPU에 들어간다고 설명하면서도, accelerate나 torchrun을 사용해 여러 GPU에서 쉽게 실행할 수도 있다고 덧붙인다. transformers는 기본 병렬화 계획을 제공하며, 최적화된 attention 커널도 함께 활용할 수 있다. 예시 코드는 torchrun --nproc_per_node=4 generate.py 형태로 4GPU 시스템에서 실행하는 방식을 보여준다. 이 예시는 gpt-oss-120b 모델을 불러오고, tp_plan을 auto로 설정해 tensor parallelism을 활성화하며, Flash Attention 3 커널을 지정한 뒤 전문가 병렬성이 대형 언어 모델에서 어떻게 작동하는지 설명하도록 프롬프트를 구성한다.
🧾 핵심 주장 / 시사점
- 이 글의 핵심은 모델 자체의 성능 주장보다, 오픈 웨이트 모델을 실제 개발자가 API·로컬·다중 GPU 환경에서 바로 실험할 수 있게 만드는 실행 경로를 촘촘히 제시한다는 점이다.
- GPT OSS의 설계는 큰 총 파라미터 수를 유지하면서 활성 파라미터와 4비트 양자화로 비용을 낮추는 방향이며, 이는 고성능 추론 모델을 더 넓은 하드웨어 범위로 확장하려는 접근으로 읽힌다.
- Hugging Face 글은 단일 권장 스택만 제시하지 않고, CUDA 세대, Hopper 여부, AMD Instinct 여부, 메모리 한계에 따라 MXFP4·Flash Attention 3·MegaBlocks를 나누어 안내해 배포 현실성을 강조한다.
✅ 액션 아이템
- gpt-oss-20b와 gpt-oss-120b 중 보유 하드웨어 기준에 맞는 우선 실험 모델을 정하고, API 사용과 로컬 추론을 각각 비교한다.
- transformers v4.55.1 이상, accelerate, kernels, triton 3.4 이상을 기준으로 로컬 추론 환경을 구성하고 최소 실행 예시를 검증한다.
- CUDA, Hopper, AMD ROCm, 다중 GPU 등 사용 가능한 환경별로 MXFP4, Flash Attention 3, MegaBlocks MoE 적용 가능성을 나눠 정리한다.
❓ 열린 질문
- gpt-oss-20b가 16GB 메모리 환경에서 실제로 어떤 응답 속도와 품질을 보이는가?
- Inference Providers 기반 API 사용과 직접 로컬 배포 중 비용, 지연시간, 운영 부담 측면에서 어느 쪽이 더 적합한가?
- MoE 구조와 MXFP4 양자화가 장기 운영에서 메모리 절감 외에 디버깅, 호환성, 성능 안정성에 어떤 영향을 주는가?