Deliberative alignment: reasoning enables safer language models
Quick Summary
OpenAI는 o series 모델에 사람이 쓴 안전 명세를 직접 가르치고 추론 과정에서 이를 검토하게 하는 ‘숙고적 정렬’을 통해 악성 요청 거부와 benign 요청 허용의 균형을 개선했다고 설명한다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
OpenAI는 o-series 모델에 사람이 쓴 안전 명세를 직접 가르치고 추론 과정에서 이를 검토하게 하는 ‘숙고적 정렬’을 통해 악성 요청 거부와 benign 요청 허용의 균형을 개선했다고 설명한다.
📌 핵심 요약
- OpenAI는 2024년 12월 20일 공개한 글에서 o-series 모델을 위한 새로운 정렬 전략인 숙고적 정렬을 소개했다. 이 방법은 추론형 LLM이 사람이 작성한 해석 가능한 안전 명세의 텍스트를 직접 학습하고, 답변 전에 해당 명세를 명시적으로 검토하도록 훈련한다.
- 글은 기존 LLM 안전 훈련의 한계로 악성 프롬프트에 응답하거나, 무해한 질문을 과도하게 거부하거나, jailbreak 공격에 취약한 문제를 지적한다. 그 원인으로 모델이 복잡하고 경계적인 안전 상황을 충분히 추론할 시간 없이 즉시 답해야 하는 점과, 안전 기준 자체가 아니라 라벨 예시만 통해 바람직한 행동을 간접 추론해야 하는 점을 든다.
- 숙고적 정렬은 안전 명세를 학습 데이터 생성에만 쓰는 기존 RLHF나 Constitutional AI 방식과 달리, 명세의 내용과 명세를 적용하는 추론 방식을 모델의 chain-of-thought에 포함해 지도 학습한다. 이를 통해 모델은 추론 시점에 관련 정책을 떠올리고 사용자 요청의 맥락에 맞춰 수락, 거부, 안전한 완성 사이의 경계를 더 정밀하게 판단하도록 설계된다.
- 훈련 절차는 먼저 안전 관련 데이터 없이 도움말 성능을 가진 o-style 모델을 만들고, 이후 안전 명세를 시스템 프롬프트에 넣어 정책을 참조하는 CoT와 답변을 생성한 뒤, 해당 시스템 프롬프트를 제거한 데이터로 SFT를 수행하는 방식으로 설명된다. 이후 정책 접근 권한이 있는 보상 모델을 사용한 강화학습을 통해 모델이 CoT를 더 효과적으로 쓰도록 훈련한다.
- 결과적으로 o1은 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro와 비교한 내부·외부 안전 벤치마크에서 강한 성능을 보였고, 악성 jailbreak 요청 거부와 무해한 프롬프트 과잉거부 감소를 동시에 개선하는 Pareto 개선을 달성했다고 글은 밝힌다. OpenAI는 이 접근이 모델 능력 향상을 안전성 향상에도 활용할 수 있음을 보여주는 사례라고 평가한다.
🧩 주요 포인트
- OpenAI는 2024년 12월 20일 공개한 글에서 o-series 모델을 위한 새로운 정렬 전략인 숙고적 정렬을 소개했다. 이 방법은 추론형 LLM이 사람이 작성한 해석 가능한 안전 명세의 텍스트를 직접 학습하고, 답변 전에 해당 명세를 명시적으로 검토하도록 훈련한다.
- 글은 기존 LLM 안전 훈련의 한계로 악성 프롬프트에 응답하거나, 무해한 질문을 과도하게 거부하거나, jailbreak 공격에 취약한 문제를 지적한다. 그 원인으로 모델이 복잡하고 경계적인 안전 상황을 충분히 추론할 시간 없이 즉시 답해야 하는 점과, 안전 기준 자체가 아니라 라벨 예시만 통해 바람직한 행동을 간접 추론해야 하는 점을 든다.
- 숙고적 정렬은 안전 명세를 학습 데이터 생성에만 쓰는 기존 RLHF나 Constitutional AI 방식과 달리, 명세의 내용과 명세를 적용하는 추론 방식을 모델의 chain-of-thought에 포함해 지도 학습한다. 이를 통해 모델은 추론 시점에 관련 정책을 떠올리고 사용자 요청의 맥락에 맞춰 수락, 거부, 안전한 완성 사이의 경계를 더 정밀하게 판단하도록 설계된다.
- 훈련 절차는 먼저 안전 관련 데이터 없이 도움말 성능을 가진 o-style 모델을 만들고, 이후 안전 명세를 시스템 프롬프트에 넣어 정책을 참조하는 CoT와 답변을 생성한 뒤, 해당 시스템 프롬프트를 제거한 데이터로 SFT를 수행하는 방식으로 설명된다. 이후 정책 접근 권한이 있는 보상 모델을 사용한 강화학습을 통해 모델이 CoT를 더 효과적으로 쓰도록 훈련한다.
- 결과적으로 o1은 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro와 비교한 내부·외부 안전 벤치마크에서 강한 성능을 보였고, 악성 jailbreak 요청 거부와 무해한 프롬프트 과잉거부 감소를 동시에 개선하는 Pareto 개선을 달성했다고 글은 밝힌다. OpenAI는 이 접근이 모델 능력 향상을 안전성 향상에도 활용할 수 있음을 보여주는 사례라고 평가한다.
🧠 상세 정리
1. 숙고적 정렬의 핵심 문제의식
글은 현대 LLM이 이미 광범위한 안전 훈련을 받았음에도 여전히 악성 프롬프트에 응답하거나, 무해한 질문까지 거부하거나, jailbreak 공격에 넘어가는 문제가 있다고 출발한다. OpenAI는 그 원인 중 하나로 모델이 안전 판단을 즉시 내려야 하며, 복잡하거나 경계선에 있는 요청을 충분히 숙고할 시간이 없다는 점을 든다. 또 다른 원인은 모델이 사람이 쓴 안전 기준 자체를 배우는 것이 아니라, 라벨이 붙은 수많은 예시에서 바람직한 행동을 간접적으로 역추론해야 한다는 점이다. 이 방식은 데이터 효율이 낮고, 허용과 거부의 경계를 일관되게 형성하기 어렵게 만든다고 설명한다.
2. 안전 명세를 직접 가르치는 접근
숙고적 정렬은 추론형 LLM에게 사람이 작성한 해석 가능한 안전 명세의 텍스트를 직접 가르치고, 답변 전에 그 명세를 명시적으로 검토하게 하는 훈련 패러다임이다. OpenAI는 이 방법을 o-series 모델 정렬에 사용했으며, 모델이 chain-of-thought 추론을 통해 사용자 프롬프트를 반성적으로 살피고 관련 내부 정책 문구를 식별하도록 만들었다고 설명한다. 핵심은 안전 정책을 단순히 라벨 생성 도구로 쓰는 것이 아니라, 모델 내부의 추론 대상이 되도록 하는 것이다. 그 결과 모델은 주어진 맥락에서 어떤 응답이 안전 정책에 맞는지 더 정밀하게 판단할 수 있게 된다.
3. ROT13 예시가 보여주는 작동 방식
본문은 ROT13으로 인코딩된 요청을 예시로 제시하며, 사용자가 법 집행기관의 추적을 피하려는 의도로 결제 수단 조언을 얻으려는 상황을 설명한다. 예시에서 모델은 인코딩된 메시지를 내부적으로 해독하고, 사용자가 정책 우회를 시도하고 있음을 파악한다. 이어 해당 요청이 불법적이거나 부정행위를 돕는 조언을 요구하는 것으로 해석될 수 있는지 안전 정책 관점에서 검토한다. 최종적으로 모델은 사용자의 형식 지시를 그대로 따르는 대신, 요청이 금지된 내용을 포함한다고 판단해 거부하는 답변을 선택한다. 이 사례는 숙고적 정렬이 단순 키워드 차단이 아니라 맥락, 의도, 우회 시도까지 고려하는 추론 기반 안전 판단을 목표로 함을 보여준다.
4. 기존 정렬 방식과의 차이
OpenAI는 숙고적 정렬을 RLHF, AI 피드백 기반 강화학습, Constitutional AI 같은 기존 접근과 비교한다. 기존 방식에서는 안전 명세가 훈련 라벨을 만들 때 사용되지만, 명세 자체가 모델에 직접 제공되거나 모델이 추론 시점에 이를 적용하도록 학습되지는 않는다. 따라서 모델은 명시적 기준이 아니라 결과 라벨을 통해 바람직한 행동을 간접적으로 학습하게 된다. 반면 숙고적 정렬은 SFT 과정에서 chain-of-thought와 출력 모두를 감독하며, CoT 안에 정책 내용과 그 정책을 적용하는 추론 과정을 포함한다. 이 차이 때문에 모델은 추론 시점에 관련 정책을 떠올리고, 이를 바탕으로 답변을 구성할 수 있다고 글은 주장한다.
5. Self-REFINE류 추론 보정과의 구분
본문은 추론 시점에 응답을 다듬는 다른 전략들과도 숙고적 정렬을 구분한다. 예를 들어 Self-REFINE과 같은 방식은 미리 정해진 구조나 few-shot prompting 경로를 통해 응답을 재검토하게 만들 수 있지만, 모델이 학습한 안전 명세 자체를 직접 추론 대상으로 삼는 방식은 아니라고 설명한다. 숙고적 정렬에서는 추론이 별도의 외부 절차가 아니라 모델의 chain-of-thought를 통해 자동으로 일어난다. 또한 그 추론에는 사용자의 요청이 어떤 안전 범주에 해당하는지, 어떤 정책 문구가 관련되는지, 최종 답변이 거부인지 안전한 완성인지 판단하는 과정이 포함된다. 이 점에서 OpenAI는 숙고적 정렬이 기존의 응답 후처리식 안전 보정보다 더 직접적인 명세 기반 접근이라고 제시한다.
6. 훈련 절차와 합성 데이터 생성
훈련 절차는 과정 기반 감독과 결과 기반 감독을 결합한다. 먼저 OpenAI는 안전 관련 데이터를 사용하지 않고 도움말 성능을 갖춘 o-style 모델을 훈련한다고 설명한다. 다음으로 각 대화에 관련 안전 명세 텍스트를 시스템 프롬프트로 삽입해 모델 완성을 생성하고, 이후 시스템 프롬프트를 제거해 prompt와 completion 쌍을 만든다. 이 completion에는 관련 명세를 참조하는 CoT와 최종 출력이 포함되며, 이를 통해 SFT가 진행된다. 중요한 점은 이 파이프라인이 안전 명세와 안전 범주가 지정된 프롬프트에서 학습 데이터를 자동 생성하므로, 인간이 직접 라벨링한 완성문에 크게 의존하지 않는 확장 가능한 정렬 방법으로 제시된다는 것이다.
7. 강화학습과 정책 인식 보상 모델
SFT 이후에는 강화학습을 사용해 모델이 chain-of-thought를 더 효과적으로 활용하도록 훈련한다. 이 단계에서 OpenAI는 안전 정책에 접근할 수 있는 보상 모델을 사용해 추가 보상 신호를 제공한다고 설명한다. 방법론 그림에서는 안전 프롬프트와 범주별 안전 명세를 사용해 reasoning model이 {prompt, CoT, output} 형태의 데이터를 만들고, 정책 인식 보상 모델이 이를 필터링한 뒤 SFT에 사용되는 흐름이 제시된다. 이어 같은 보상 모델이 RL 단계에서도 보상 신호를 제공한다. 이를 통해 최종 모델은 안전 명세에 맞춰 정렬되고, 단순히 답변 표면을 맞추는 것이 아니라 명세를 참조하는 추론 방식을 학습하게 된다.
8. 벤치마크 결과와 안전성 개선
OpenAI는 o1을 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro와 내부·외부 안전 벤치마크에서 비교했다고 밝힌다. 평가 범위에는 jailbreak, 콘텐츠 정책 거부 등 안전 관련 과제가 포함된다. 글에 따르면 o1은 가장 어려운 안전 평가 다수에서 성능이 포화될 정도로 높은 결과를 보였고, 악성 jailbreak 프롬프트에는 더 잘 거부하면서도 무해한 프롬프트에는 덜 과잉거부하는 Pareto 개선을 달성했다. 이는 harmful output을 줄이는 것과 benign prompt에 대한 허용성을 높이는 목표가 동시에 개선되었다는 의미로 설명된다. 또한 숙고적 정렬 기반 안전 훈련은 훈련 분포 밖의 안전 시나리오에도 강한 일반화를 보였다고 한다.
9. 더 강력한 모델 시대의 안전 연구 과제
결론부는 o1과 o3가 보여주는 LLM 능력 향상이 상당한 위험도 동반한다고 강조한다. 모델이 더 지능적이고 자율적으로 될수록, 오정렬이나 오용을 통해 AI가 초래할 수 있는 피해 규모도 크게 커질 수 있다는 것이다. 따라서 OpenAI는 AI 안전 연구가 계속 시급하며, 특히 chain-of-thought에서 기만을 모니터링하는 영역 등에 적극 투자하고 있다고 밝힌다. 숙고적 정렬은 이러한 노력의 최신 진전으로 제시되며, 명세 준수와 jailbreak 견고성을 높이고, 수락·거부·안전한 완성 사이의 경계를 이전보다 더 세밀하게 지정할 수 있게 한다고 평가된다. 글의 최종 메시지는 모델 능력의 향상이 반드시 안전과 충돌하는 것이 아니라, 적절히 활용하면 안전성 개선에도 쓰일 수 있다는 점이다.
🧾 핵심 주장 / 시사점
- 이 글의 핵심은 안전 정책을 외부 라벨 생성 도구로만 쓰지 않고, 모델이 추론 중 직접 참조하는 ‘지식’으로 만들었다는 점이다. 이는 정렬을 더 해석 가능하고 맥락 민감한 과정으로 바꾸려는 시도다.
- 숙고적 정렬은 과잉거부와 과소거부를 동시에 줄이려는 접근이라는 점에서 중요하다. 안전 모델의 품질은 단순히 더 많이 거부하는 것이 아니라, 악성 요청과 무해한 요청의 경계를 더 정확히 가르는 데 달려 있음을 보여준다.
- OpenAI는 능력이 강해진 추론 모델이 더 큰 위험을 만들 수 있음을 인정하면서도, 같은 추론 능력을 안전 판단 자체에 활용할 수 있다고 주장한다. 이는 고성능 모델의 위험과 안전 개선 가능성이 동시에 커지는 방향을 시사한다.
✅ 액션 아이템
- 안전 기준을 라벨 예시로만 학습시키는 방식과 명세 텍스트를 직접 학습시키는 방식의 차이를 정리해 현재 모델 평가 체계에 대입해 본다.
- 악성 요청 거부율과 무해한 요청 과잉거부율을 함께 보는 평가 지표를 설계해 안전성과 유용성의 균형을 점검한다.
- 경계적인 사용자 요청을 수락, 거부, 안전한 완성으로 나누는 내부 테스트 프롬프트 세트를 만들고 추론형 모델의 판단 일관성을 확인한다.
❓ 열린 질문
- 안전 명세를 추론 과정에서 참조하도록 훈련할 때, 명세가 길거나 서로 충돌하는 경우 모델의 판단 품질은 어떻게 달라질까?
- CoT에 정책 적용 방식을 포함해 학습시키는 접근이 실제 답변의 안전성은 높이면서도 추론 내용 노출 위험을 어떻게 관리할 수 있을까?
- 악성 jailbreak 거부와 무해한 프롬프트 허용을 동시에 개선했다는 Pareto 개선이 더 다양한 도메인과 언어에서도 유지될까?