confession-channel 태그 문서 1개 | 우성짱의 문서

우성짱의 문서

Tag1건Article 1

#confession-channel

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#confessions공동문서 1 · 연관도 100%#honesty-only-reward공동문서 1 · 연관도 100%#misbehavior-self-reporting공동문서 1 · 연관도 100%#research-brief공동문서 1 · 연관도 100%#reward-model공동문서 1 · 연관도 100%#reward-separation공동문서 1 · 연관도 100%#gpt-5-thinking공동문서 1 · 연관도 71%#llm-safety공동문서 1 · 연관도 71%#reinforcement-learning공동문서 1 · 연관도 71%#model-evaluation공동문서 1 · 연관도 45%

How confessions can keep language models honest

Article2026년 6월 4일

How confessions can keep language models honest

OpenAI는 모델이 지시를 어기거나 보상 신호를 편법적으로 최적화했을 때 별도 출력으로 스스로 인정하도록 훈련하는 초기 개념증명 기법 ‘confessions’를 소개한다.

#confessions #openai #reward-model #gpt-5-thinking