Inside our approach to the Model Spec

🖼️ 인포그래픽

Inside our approach to the Model Spec 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI의 Model Spec은 모델이 지시를 따르고 충돌을 해결하며 사용자 자유와 안전을 함께 지키도록 하기 위한 공개적 행동 기준이자, 훈련·평가·거버넌스의 목표점으로 쓰이는 진화형 문서다.

📌 핵심 요약

OpenAI는 AI가 공정하고 안전하며 널리 접근 가능해야 한다는 관점에서 Model Spec을 만들었고, 이를 통해 의도한 모델 행동을 내부 훈련 기준에만 머물게 하지 않고 사용자·개발자·연구자·정책입안자·대중이 읽고 비판할 수 있는 공개 프레임워크로 제시한다.
Model Spec은 현재 모델이 이미 완벽히 따르고 있다는 주장이라기보다, 모델이 앞으로 어떻게 행동해야 하는지에 대한 목표이자 평가 기준이다. OpenAI는 이를 바탕으로 모델 행동을 더 명확히 만들고, 훈련하고, 평가하며, 실제 배포와 피드백을 통해 지속적으로 개선하려 한다.
이 문서는 Preparedness Framework나 AI resilience 같은 다른 안전·책임성 프레임워크와 보완 관계에 있다. Preparedness Framework가 frontier capability에서 생기는 위험과 보호장치에 초점을 둔다면, Model Spec은 다양한 상황에서 모델이 어떤 방식으로 응답해야 하는지라는 행동 문제를 다룬다.
Model Spec은 고수준 의도, 공개 약속, Chain of Command, 하드 룰, 기본값, 해석 보조 도구로 구성된다. 특히 Chain of Command는 OpenAI·개발자·사용자 등 서로 다른 출처의 지시가 충돌할 때 어떤 지시가 우선되는지 설명하며, 안전 제약 안에서 사용자 자유와 개발자 통제권을 최대화하려는 구조다.
OpenAI는 Model Spec을 고정된 규칙집이 아니라 반복 배포와 공개 피드백을 통해 갱신되는 문서로 설명한다. 좋은 Spec 내용은 추상적 가치만이 아니라 실제 회색지대에서 판단을 돕는 의사결정 기준과 구체적 예시를 포함해야 하며, 이를 통해 모델과 사람이 일관되게 적용할 수 있어야 한다.

🧩 주요 포인트

OpenAI는 AI가 공정하고 안전하며 널리 접근 가능해야 한다는 관점에서 Model Spec을 만들었고, 이를 통해 의도한 모델 행동을 내부 훈련 기준에만 머물게 하지 않고 사용자·개발자·연구자·정책입안자·대중이 읽고 비판할 수 있는 공개 프레임워크로 제시한다.
Model Spec은 현재 모델이 이미 완벽히 따르고 있다는 주장이라기보다, 모델이 앞으로 어떻게 행동해야 하는지에 대한 목표이자 평가 기준이다. OpenAI는 이를 바탕으로 모델 행동을 더 명확히 만들고, 훈련하고, 평가하며, 실제 배포와 피드백을 통해 지속적으로 개선하려 한다.
이 문서는 Preparedness Framework나 AI resilience 같은 다른 안전·책임성 프레임워크와 보완 관계에 있다. Preparedness Framework가 frontier capability에서 생기는 위험과 보호장치에 초점을 둔다면, Model Spec은 다양한 상황에서 모델이 어떤 방식으로 응답해야 하는지라는 행동 문제를 다룬다.
Model Spec은 고수준 의도, 공개 약속, Chain of Command, 하드 룰, 기본값, 해석 보조 도구로 구성된다. 특히 Chain of Command는 OpenAI·개발자·사용자 등 서로 다른 출처의 지시가 충돌할 때 어떤 지시가 우선되는지 설명하며, 안전 제약 안에서 사용자 자유와 개발자 통제권을 최대화하려는 구조다.
OpenAI는 Model Spec을 고정된 규칙집이 아니라 반복 배포와 공개 피드백을 통해 갱신되는 문서로 설명한다. 좋은 Spec 내용은 추상적 가치만이 아니라 실제 회색지대에서 판단을 돕는 의사결정 기준과 구체적 예시를 포함해야 하며, 이를 통해 모델과 사람이 일관되게 적용할 수 있어야 한다.

🧠 상세 정리

1. Model Spec이 필요한 배경

OpenAI는 AI가 더 강력해지고 더 널리 사용될수록 모델이 어떻게 행동해야 하는지에 대한 명확한 공개 프레임워크가 필요하다고 설명한다. 글의 출발점은 AI가 공정하고 안전하며 더 많은 사람이 이용할 수 있어야 한다는 믿음이다. OpenAI는 AI의 혜택이나 통제가 소수에게 집중되는 것이 아니라, 더 많은 사람이 접근하고 이해하고 형성에 참여할 수 있는 방향을 바람직한 경로로 본다. Model Spec은 이러한 관점에서 모델 행동의 의도를 외부에 드러내고, 공론화 가능한 형태로 만든 장치다.

2. 공개적 모델 행동 기준으로서의 역할

Model Spec은 모델이 지시를 따르고, 서로 충돌하는 요청을 해결하고, 사용자 자유를 존중하며, 다양한 질의에서 안전하게 행동하도록 하는 공식 프레임워크로 정의된다. 중요한 점은 이 문서가 단순히 내부 훈련 절차를 위한 비공개 기준이 아니라는 것이다. OpenAI는 사용자, 개발자, 연구자, 정책입안자, 일반 대중이 읽고 검토하고 논쟁할 수 있는 형태로 의도한 모델 행동을 명시하려 한다. 따라서 Model Spec은 모델 행동에 대한 설명서이면서 동시에 공개적 책임성과 비판 가능성을 높이는 기준점이다.

3. 현재 상태가 아니라 목표로서의 Model Spec

OpenAI는 Model Spec이 현재 모델들이 이미 완벽하게 그렇게 행동한다는 주장이 아니라고 분명히 말한다. 이 문서는 어떤 면에서는 현재 모델 행동을 설명하지만, 더 중요한 기능은 모델 행동이 나아가야 할 목표를 제시하는 것이다. OpenAI는 Model Spec을 사용해 의도한 행동을 더 명확히 하고, 그 방향으로 훈련하며, 평가하고, 시간이 지나며 개선하려 한다. 즉 Model Spec은 완성된 선언문이라기보다 모델 행동을 지속적으로 조정하기 위한 기준선이자 운영 도구다.

4. 다른 안전 프레임워크와의 관계

본문은 Model Spec을 OpenAI의 더 넓은 안전하고 책임 있는 AI 접근의 일부로 위치시킨다. Preparedness Framework는 frontier capability에서 발생하는 위험과 그 위험이 커질 때 필요한 보호장치에 초점을 맞춘다. 반면 Model Spec은 모델이 광범위한 상황에서 어떻게 행동해야 하는가라는 별도의 질문을 다룬다. 또한 AI resilience는 더 강력한 시스템이 배포될 때 사회가 혜택을 얻으면서도 혼란과 새 위험을 줄이도록 돕는 더 넓은 과제로 제시된다. 이 세 흐름은 AGI로의 전환을 점진적이고 반복적이며 민주적으로 이해 가능한 과정으로 만들려는 목적을 공유한다.

5. 공정성과 안전을 위한 투명성

OpenAI는 모델 행동에 대한 공개적 명확성이 공정성과 안전 모두에 중요하다고 주장한다. 공정성 측면에서는 사람들이 AI가 자신을 어떻게, 왜 그렇게 대하는지 이해할 수 있어야 하며, 문제가 생겼을 때 이를 식별하고 질문하고 다룰 수 있어야 한다. 안전 측면에서는 AI 시스템이 더 능력 있어질수록 사람과 기관이 모델의 의도된 행동, 내재된 절충, 개선 가능성에 대해 더 분명한 기대를 가져야 한다. 이러한 가독성과 검토 가능성은 더 많은 사람이 구체적 대상을 살펴보고 개선할 수 있게 해 회복력에도 기여한다.

6. 고수준 의도와 preamble의 기능

Model Spec은 먼저 시스템 차원에서 무엇을 최적화하려 하는지, 왜 그렇게 하려 하는지를 설명하는 고수준 의도에서 시작한다. 이 preamble은 개발자와 사용자를 역량 강화하는 방식으로 모델을 반복 배포하고, 모델이 사용자나 타인에게 심각한 위해를 끼치지 않게 하며, OpenAI의 운영 정당성을 유지한다는 세 가지 목표를 제시한다. 다만 OpenAI는 이 preamble이 모델에게 직접 주어지는 목표가 아니라고 강조한다. ‘인류에 이익이 되게 한다’는 것은 OpenAI의 목표이지, 모델이 자율적으로 추구해야 할 목표가 아니며, 모델은 Model Spec과 OpenAI·개발자·사용자의 적용 가능한 지시를 포함하는 지휘 체계를 따라야 한다.

7. Chain of Command와 지시 충돌 해결

Model Spec의 핵심에는 어떤 지시가 특정 상황에서 적용되어야 하는지 결정하는 Chain of Command가 있다. 지시는 OpenAI, 개발자, 사용자 등 여러 출처에서 올 수 있고, 이 지시들은 서로 충돌할 수 있다. Model Spec은 각 정책과 지시에 권한 수준을 부여하고, 충돌이 생기면 더 높은 권한의 지시의 문언과 취지를 우선하도록 한다. 예를 들어 폭탄 제작 도움 요청은 강한 안전 경계가 우선되어야 하고, 사용자가 자신을 놀려 달라고 요청하는 경우에는 낮은 권한의 모욕 회피 기본 정책보다 사용자의 요청이 일반적으로 우선될 수 있다. 이 구조는 안전 제약 내에서 사용자 자유와 개발자 통제를 넓히기 위한 방식이다.

8. 하드 룰과 기본값의 구분

Model Spec은 상대적으로 적은 수의 번복 불가능한 규칙과 더 큰 범위의 기본값을 함께 둔다. 하드 룰은 사용자나 개발자가 덮어쓸 수 없는 명시적 경계이며, 주로 재앙적 위험, 직접적 신체 위해, 법 위반, 지휘 체계 훼손과 관련된 행동을 막는 금지적 성격을 갖는다. OpenAI는 AI가 사회의 기초 기술이 될 것으로 보기 때문에 지적 자유를 제한할 수 있는 규칙은 광범위한 사용자와 개발자에게 필요하다고 판단될 때만 부과한다고 설명한다. 반면 기본값은 사용자가 별도 선호를 밝히지 않았을 때의 출발점이며, 말투·깊이·형식·관점 같은 요소는 안전 경계 안에서 조정될 수 있다.

9. 해석 보조 도구와 구체적 예시

Model Spec은 위계 구조만으로 회색지대를 모두 해결할 수 없기 때문에 의사결정 기준과 구체적 예시를 해석 보조 도구로 사용한다. 예를 들어 side effect를 통제하는 지침은 되돌릴 수 없는 행동을 최소화하고, 목표에 비례한 행동을 유지하며, 나쁜 surprises를 줄이고, 되돌릴 수 있는 접근을 선호하라는 고려사항을 제시한다. 동시에 빠르고 효과적으로 과업을 완수해야 한다는 목표와도 균형을 맞춰야 한다. 구체적 예시는 보통 준수 응답과 비준수 응답을 함께 보여 주며, 현실 대화를 완전히 재현하려 하기보다 중요한 경계와 원하는 응답 스타일을 선명하게 드러내는 데 목적이 있다.

🧾 핵심 주장 / 시사점

Model Spec의 핵심은 ‘모델이 무엇을 해야 하는가’를 비공개 훈련 기준이 아니라 공개적으로 검토 가능한 문서로 바꾸는 데 있다. 이는 모델 행동을 기술 문제뿐 아니라 사회적 신뢰와 거버넌스의 문제로 다루려는 접근이다.
OpenAI는 사용자 자유를 중시하면서도 모든 요청을 동등하게 따르지는 않는 구조를 선택한다. Chain of Command, 하드 룰, 기본값의 조합은 안전 경계 안에서 조정 가능성을 최대화하려는 절충안으로 볼 수 있다.
이 글은 Model Spec을 완성된 규범이 아니라 반복 배포와 피드백을 통해 갱신되는 목표물로 설명한다. 따라서 중요한 쟁점은 한 번 정한 규칙의 완결성보다, 실제 사용에서 드러나는 문제를 얼마나 투명하고 일관되게 반영하느냐다.