apollo-research 태그 문서 1개 | 우성짱의 문서

우성짱의 문서

Tag1건Article 1

#apollo-research

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#hidden-misalignment공동문서 1 · 연관도 100%#sandbagging-risk공동문서 1 · 연관도 100%#scheming-detection공동문서 1 · 연관도 100%#deliberative-alignment공동문서 1 · 연관도 71%#frontier-model-safety공동문서 1 · 연관도 71%#o4-mini공동문서 1 · 연관도 71%#safety-evaluation공동문서 1 · 연관도 71%#model-evaluation공동문서 1 · 연관도 45%#ai-alignment공동문서 1 · 연관도 41%#gpt-5공동문서 1 · 연관도 41%

Detecting and reducing scheming in AI models

Article2025년 9월 17일

Detecting and reducing scheming in AI models

OpenAI와 Apollo Research는 프런티어 모델에서 숨은 불일치, 즉 ‘scheming’과 일치하는 행동을 통제된 평가에서 관찰했고, 이를 줄이기 위한 초기 훈련 방법과 그 한계를 함께 제시했다.

#openai #apollo-research #gpt-5 #o4-mini