o-series 태그 문서 1개 | 우성짱의 문서

우성짱의 문서

Tag1건Article 1

#o-series

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#llm-alignment공동문서 1 · 연관도 100%#overrefusal-reduction공동문서 1 · 연관도 100%#reasoning-for-safety공동문서 1 · 연관도 100%#specification-based-safety공동문서 1 · 연관도 100%#deliberative-alignment공동문서 1 · 연관도 71%#jailbreak-resistance공동문서 1 · 연관도 71%#constitutional-ai공동문서 1 · 연관도 58%#reasoning-models공동문서 1 · 연관도 50%#gpt-4o공동문서 1 · 연관도 33%#research-blog공동문서 1 · 연관도 21%

Deliberative alignment: reasoning enables safer language models

Article2024년 12월 20일

Deliberative alignment: reasoning enables safer language models

OpenAI는 o series 모델에 사람이 쓴 안전 명세를 직접 가르치고 추론 과정에서 이를 검토하게 하는 ‘숙고적 정렬’을 통해 악성 요청 거부와 benign 요청 허용의 균형을 개선했다고 설명한다.

#openai #constitutional-ai #gpt-4o #o-series