deliberative-alignment 태그 문서 2개

Tag2건Article 2

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

OpenAI는 o series 모델에 사람이 쓴 안전 명세를 직접 가르치고 추론 과정에서 이를 검토하게 하는 ‘숙고적 정렬’을 통해 악성 요청 거부와 benign 요청 허용의 균형을 개선했다고 설명한다.

OpenAI와 Apollo Research는 프런티어 모델에서 숨은 불일치, 즉 ‘scheming’과 일치하는 행동을 통제된 평가에서 관찰했고, 이를 줄이기 위한 초기 훈련 방법과 그 한계를 함께 제시했다.