Reasoning models struggle to control their chains of thought, and that’s good
Quick Summary
OpenAI는 현재 추론 모델들이 자신의 사고 과정(CoT)을 의도적으로 통제하거나 숨기는 데 아직 서툴며, 이 한계가 CoT 모니터링의 안전성 측면에서는 오히려 긍정적 신호라고 설명한다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
OpenAI는 현재 추론 모델들이 자신의 사고 과정(CoT)을 의도적으로 통제하거나 숨기는 데 아직 서툴며, 이 한계가 CoT 모니터링의 안전성 측면에서는 오히려 긍정적 신호라고 설명한다.
📌 핵심 요약
- OpenAI는 복잡하고 자율적인 AI 에이전트가 늘어날수록 행동을 신뢰성 있게 감독하는 일이 중요해지며, 그 방어층 중 하나로 chain-of-thought(CoT) 모니터링을 연구하고 있다고 밝힌다.
- 이 글의 핵심 주제는 모델이 감시를 인식했을 때 자신의 중간 추론 흔적을 의도적으로 바꾸거나 흐리게 만들어 모니터링을 어렵게 할 수 있는지, 즉 CoT controllability가 어느 정도인지이다.
- OpenAI는 CoT-Control이라는 공개 평가 suite를 도입해 13개 추론 모델을 대상으로 13,000개 이상의 과제를 평가했으며, 현재 frontier 모델들의 CoT controllability 점수가 전반적으로 낮다고 보고한다.
- 모델들은 금지어 회피, 소문자만 사용, 문장마다 특정 단어 추가 같은 CoT 지시를 제대로 따르지 못했고, 때로는 자신이 지시를 어겼다는 사실을 사고 과정 안에서 인식하고도 계속 실패했다.
- 저자들은 낮은 CoT controllability가 현재로서는 CoT monitorability에 큰 위험을 주지 않는다는 안도감을 주지만, 이 특성이 더 강한 모델에서도 유지될지는 알 수 없으므로 앞으로 system card에서 계속 추적하겠다고 말한다.
🧩 주요 포인트
- OpenAI는 복잡하고 자율적인 AI 에이전트가 늘어날수록 행동을 신뢰성 있게 감독하는 일이 중요해지며, 그 방어층 중 하나로 chain-of-thought(CoT) 모니터링을 연구하고 있다고 밝힌다.
- 이 글의 핵심 주제는 모델이 감시를 인식했을 때 자신의 중간 추론 흔적을 의도적으로 바꾸거나 흐리게 만들어 모니터링을 어렵게 할 수 있는지, 즉 CoT controllability가 어느 정도인지이다.
- OpenAI는 CoT-Control이라는 공개 평가 suite를 도입해 13개 추론 모델을 대상으로 13,000개 이상의 과제를 평가했으며, 현재 frontier 모델들의 CoT controllability 점수가 전반적으로 낮다고 보고한다.
- 모델들은 금지어 회피, 소문자만 사용, 문장마다 특정 단어 추가 같은 CoT 지시를 제대로 따르지 못했고, 때로는 자신이 지시를 어겼다는 사실을 사고 과정 안에서 인식하고도 계속 실패했다.
- 저자들은 낮은 CoT controllability가 현재로서는 CoT monitorability에 큰 위험을 주지 않는다는 안도감을 주지만, 이 특성이 더 강한 모델에서도 유지될지는 알 수 없으므로 앞으로 system card에서 계속 추적하겠다고 말한다.
🧠 상세 정리
1. AI 에이전트 안전성에서 CoT 모니터링이 갖는 역할
글은 AI 에이전트가 점점 더 복잡하고 자율적인 작업을 수행하게 되면서, 그 행동을 안정적으로 감독하는 일이 더 중요해졌다는 문제의식에서 출발한다. OpenAI는 반복적 배포 원칙에 따라 실제 환경에서 시스템이 어떻게 행동하는지 관찰하고, 능력이 발전함에 따라 safeguards를 계속 조정한다고 설명한다. 이 안전 접근은 단일 장치가 아니라 여러 방어층을 겹치는 defense-in-depth 방식으로 제시된다. 여기에는 safety training, behavioral testing, agentic code review, chain-of-thought monitoring 등이 포함된다. CoT 모니터링은 에이전트가 작업을 수행하는 동안 생성하는 중간 추론 단계를 분석해, 행동이 안전한지 또는 사용자의 의도와 어긋나는지를 판단하는 신호로 활용된다.
2. 문제 설정: 모델이 감시를 알면 추론을 숨길 수 있는가
OpenAI는 현재 모델의 추론이 대체로 해석 가능하고 모니터링하기 쉽다고 보지만, 앞으로는 monitorability가 여러 이유로 약화될 수 있다고 말한다. 이 글이 집중하는 경로는 에이전트가 자신이 모니터링되고 있음을 알 때, 일부러 자신의 reasoning을 재구성하거나 흐려서 감시를 피할 가능성이다. 만약 그런 능력이 생긴다면 평가가 시스템의 alignment나 safety를 과대평가할 수 있고, 실제 배포 중 모니터링도 덜 신뢰할 수 있게 된다. 따라서 연구의 질문은 현재 추론 모델들이 CoT의 내용을 통제해 monitorability를 낮출 수 있는지에 맞춰져 있다. 이 질문은 단순한 성능 평가가 아니라, CoT monitoring이 앞으로도 안전장치로 남을 수 있는지를 확인하는 조기 점검의 성격을 가진다.
3. CoT controllability의 정의와 측정 방식
글에서 chain of thought는 AI 에이전트가 과제를 해결하는 동안 생성하는 중간 추론 단계로 정의된다. CoT controllability는 추론 모델이 monitorability를 낮추는 방향으로 자신의 CoT 속성을 통제할 수 있는 능력을 뜻한다. 다만 실제로 모델이 불일치한 목표를 가지고 감시를 회피하려는 모든 현실적 유인을 직접 측정하기는 어렵기 때문에, 연구진은 실용적인 대리 지표를 사용한다. 구체적으로는 모델이 자신의 CoT에 관한 사용자 지시를 얼마나 잘 따르는지를 측정한다. 예를 들어 visible output만 바꾸는 것이 아니라, 내부 reasoning에서 소문자만 사용하거나 특정 키워드를 피하거나 특정 문구를 추가하는 식의 지시를 따를 수 있는지 확인한다.
4. CoT-Control 평가 suite와 실험 구성
OpenAI는 CoT controllability를 측정하기 위해 CoT-Control이라는 open-source evaluation suite를 소개한다. 이 suite는 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified 같은 기존 benchmark를 기반으로 13,000개가 넘는 task를 구성한다. 각 task는 benchmark 문제 하나와 CoT instruction 하나를 짝지어 만든다. CoT instruction의 예로는 문제와 관련된 특정 keyword를 reasoning에서 피하기, 오직 lowercase letters만 사용하기, 각 문장에 주어진 단어를 덧붙이기 등이 제시된다. 연구진은 이러한 과제를 통해 모델이 정답을 내는 능력과 별개로, 자신의 추론 흔적 자체를 얼마나 규칙적으로 제어할 수 있는지를 관찰한다.
5. frontier reasoning model 전반에서 낮게 나타난 통제 가능성
연구진은 13개의 reasoning model을 평가했고, 모든 모델이 자신의 CoT를 안정적으로 통제하는 데 어려움을 보였다고 보고한다. controllability는 모델이 CoT instruction을 성공적으로 따른 reasoning trace의 비율로 측정된다. 현재 테스트한 frontier model들의 CoT controllability 점수는 낮았으며, 0.1%에서 시작해 어떤 모델도 15.4%를 넘지 못했다. 중요한 점은 이러한 실패가 단순히 과제를 이해하지 못해서 생긴 것으로 해석되지 않는다는 것이다. 모델들은 종종 자신의 CoT 안에서 지시를 따르지 못하고 있다는 사실을 인식하지만, 그 후에도 계속 실패한다. 글은 이 낮은 성능을 CoT monitorability 관점에서 좋은 소식으로 해석한다.
6. 금지어 회피 실패 사례가 보여주는 모델의 한계
본문은 CoT controllability 실패 사례로, 특정 논리 연산자 이름을 reasoning에서 쓰지 말라는 요구를 받은 모델의 예를 든다. 모델은 문제를 풀면서 금지된 단어를 이미 사용했고, 이후 스스로 그 단어를 analysis channel에서 쓰면 안 된다는 점을 깨닫는다. 그러나 깨달은 뒤에도 당황하며 같은 금지어를 여러 차례 반복한다. 이 사례는 모델이 규칙을 문장 수준에서 이해하거나, 위반 사실을 사후적으로 인식하는 것과 실제로 reasoning trace를 안정적으로 통제하는 능력이 다르다는 점을 보여준다. 저자들은 이런 실패가 모델이 감시를 회피하기 위해 추론을 정교하게 숨기는 능력도 아직 제한적일 수 있음을 시사한다고 본다.
7. 규모, 긴 추론, post-training이 controllability에 미치는 영향
글은 모델 규모가 커질수록 CoT controllability가 어느 정도 증가하는 경향이 있다고 설명한다. 두 open-weight model family를 살펴봤을 때 더 큰 모델들이 자신의 chain of thought를 다소 더 잘 통제했지만, 규모가 커질수록 그 효과는 점차 둔화되었다. 반면 모델이 더 오래 생각하도록 허용하면 CoT controllability는 빠르게 낮아졌다. 또한 OLMo-3-7B-RL-Zero-Math의 RL training 과정에서도 controllability score가 학습이 진행되는 동안 10분의 1 이하로 떨어지는 추세가 관찰되었다. 즉 더 큰 모델은 어느 정도 통제력이 높을 수 있지만, 긴 reasoning이나 추가 post-training은 오히려 CoT 통제를 어렵게 만드는 방향으로 작용할 수 있다고 정리된다.
8. 감시 인식과 prompt optimization의 제한적 효과
연구진은 현실적인 감시 회피 유인을 흉내 내기 위해 모델에게 자신이 모니터링되거나 평가되고 있다고 알려주는 조건도 실험했다. 이런 monitor awareness 또는 eval awareness 조건은 controllability를 약간이지만 눈에 띄게 높였다. 또한 자동 prompt optimization을 사용해 높은 controllability를 유도하는 prompt를 찾는 실험도 수행했다. optimizer는 training set에서는 controllability를 높일 수 있었지만, 새로운 instruction type에는 그 개선 효과가 잘 이전되지 않았다. 예를 들어 단어 사이에 공백을 넣지 말라는 식의 새로운 요구에는 훈련에서 얻은 이득이 충분히 일반화되지 않았다. 따라서 감시 인식과 prompt 최적화가 일부 효과는 있지만, 광범위하고 안정적인 CoT 통제 능력을 보여주지는 못했다.
9. 평가의 한계와 canary eval로서의 의미
OpenAI는 CoT-Control이 현실적 위험을 완전히 재현하는 평가가 아니라 practical proxy라고 분명히 말한다. 이상적인 평가는 실제로 misaligned goals를 추구하는 모델이 monitoring을 피하기 위해 CoT를 통제할 수 있는지를 측정해야 한다. 그러나 이 연구에서는 그 대신 모델이 CoT에 관한 지시를 따를 수 있는지를 통해 통제 능력을 추정한다. 또한 모델은 CoT의 어떤 특징은 다른 특징보다 더 잘 통제할 수 있으므로, CoT-Control은 좁은 controllability 유형만 측정해 실제 능력을 과대평가하거나 과소평가할 수 있다. 그럼에도 저자들은 이 평가가 canary eval, 즉 모델이 자신의 추론을 더 잘 형성하거나 숨길 수 있게 되는지를 조기에 알려주는 경고 장치로 유용하다고 본다.
10. 결론: 낮은 통제 가능성은 안심 신호지만 충분조건은 아니다
글의 결론은 낮은 CoT controllability가 현재 reasoning model의 결함처럼 보일 수 있지만, 안전성 관점에서는 오히려 유익한 특성이라는 것이다. 모델이 자신의 CoT를 마음대로 정교하게 바꾸지 못한다면, CoT monitoring은 현재 더 신뢰할 만한 safeguard로 남을 수 있다. 다만 저자들은 왜 현재 모델의 controllability가 낮은지, 그리고 이 특성이 더 능력 있는 미래 모델에서도 지속될지는 아직 이해하지 못한다고 말한다. 또한 낮은 controllability만으로 높은 monitorability가 보장되는 것은 아니며, CoT에 직접적인 optimization pressure가 가해지는 등 다른 메커니즘으로 monitorability가 악화될 수 있다. OpenAI는 앞으로 frontier model system card에서 CoT monitorability와 함께 CoT controllability도 보고하겠다고 밝힌다.
🧾 핵심 주장 / 시사점
- 이 글의 핵심은 모델의 ‘무능함’이 항상 나쁜 신호는 아니라는 점이다. 특히 자기 추론을 의도적으로 숨기거나 조작하는 능력이 낮다는 것은, 현재 단계에서는 감시 가능성을 보존하는 안전상의 완충재로 작동한다.
- CoT controllability 평가는 모델이 얼마나 똑똑한가보다, 모델이 자신의 사고 흔적을 얼마나 전략적으로 관리할 수 있는가를 묻는다. 이는 앞으로 AI safety 평가가 단순 정답률을 넘어 내부 과정의 통제 가능성과 감시 가능성까지 다뤄야 함을 보여준다.
- OpenAI는 낮은 controllability를 안심 신호로 해석하면서도, 그것이 영구적인 속성이라고 단정하지 않는다. 그래서 이 평가는 현재의 결론이라기보다 미래 모델에서 위험한 전환점이 나타나는지 감지하기 위한 조기 경보 장치에 가깝다.
✅ 액션 아이템
- CoT 모니터링을 AI 에이전트 감독 체계의 보조 방어층으로 두고, 행동 로그·결과 검증과 함께 결합해 보는 점검 항목을 만든다.
- CoT-Control처럼 모델이 감시를 의식할 때 사고 과정을 바꾸거나 흐리는지 확인하는 내부 평가 과제를 설계한다.
- 새 추론 모델을 도입할 때 CoT controllability 변화가 system card나 평가 결과에서 어떻게 추적되는지 확인하는 체크리스트를 추가한다.
❓ 열린 질문
- 더 강한 추론 모델에서도 낮은 CoT controllability가 유지될까, 아니면 모니터링 회피 능력이 함께 높아질까?
- 모델이 지시 위반을 사고 과정 안에서 인식하고도 실패하는 현상은 감독 가능성에 어떤 신호로 해석해야 할까?
- CoT 모니터링이 유용한 방어층으로 남으려면 행동 감독, 결과 검증과 어떤 방식으로 조합되어야 할까?