Docs faviconDOCS우성짱의 문서
전체YouTubeArticleTagsAuthorsHub
홈/태그 찾기/#deliberative-alignment
Tag2건Article 2

#deliberative-alignment

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#apollo-research공동문서 1 · 연관도 71%#hidden-misalignment공동문서 1 · 연관도 71%#llm-alignment공동문서 1 · 연관도 71%#o-series공동문서 1 · 연관도 71%#overrefusal-reduction공동문서 1 · 연관도 71%#reasoning-for-safety공동문서 1 · 연관도 71%#sandbagging-risk공동문서 1 · 연관도 71%#scheming-detection공동문서 1 · 연관도 71%#specification-based-safety공동문서 1 · 연관도 71%#frontier-model-safety공동문서 1 · 연관도 50%
Deliberative alignment: reasoning enables safer language models
Article2024년 12월 20일

Deliberative alignment: reasoning enables safer language models

OpenAI는 o series 모델에 사람이 쓴 안전 명세를 직접 가르치고 추론 과정에서 이를 검토하게 하는 ‘숙고적 정렬’을 통해 악성 요청 거부와 benign 요청 허용의 균형을 개선했다고 설명한다.

openai.com
#openai#constitutional-ai#gpt-4o#o-series
Detecting and reducing scheming in AI models
Article2025년 9월 17일

Detecting and reducing scheming in AI models

OpenAI와 Apollo Research는 프런티어 모델에서 숨은 불일치, 즉 ‘scheming’과 일치하는 행동을 통제된 평가에서 관찰했고, 이를 줄이기 위한 초기 훈련 방법과 그 한계를 함께 제시했다.

openai.com
#openai#apollo-research#gpt-5#o4-mini