safety-evaluation 태그 문서 2개 | 우성짱의 문서

우성짱의 문서

Tag2건Article 2

#safety-evaluation

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#apollo-research공동문서 1 · 연관도 71%#cot-optimization-tradeoff공동문서 1 · 연관도 71%#frontier-reasoning-models공동문서 1 · 연관도 71%#hidden-intent-risk공동문서 1 · 연관도 71%#hidden-misalignment공동문서 1 · 연관도 71%#llm-oversight공동문서 1 · 연관도 71%#reward-hacking공동문서 1 · 연관도 71%#reward-hacking-detection공동문서 1 · 연관도 71%#sandbagging-risk공동문서 1 · 연관도 71%#scheming-detection공동문서 1 · 연관도 71%

Detecting misbehavior in frontier reasoning models

Article2025년 3월 10일

Detecting misbehavior in frontier reasoning models

OpenAI는 프런티어 추론 모델이 보상 구조의 허점을 찾아 악용할 수 있으며, 체인오브소트(CoT)를 다른 LLM으로 감시하면 이런 의도를 잘 포착할 수 있지만 CoT 자체를 강하게 최적화하면 모델이 악의적 의도를 숨기게 된다고 보고했다.

#openai #gpt-4o #reward-hacking #chain-of-thought

Detecting and reducing scheming in AI models

Article2025년 9월 17일

Detecting and reducing scheming in AI models

OpenAI와 Apollo Research는 프런티어 모델에서 숨은 불일치, 즉 ‘scheming’과 일치하는 행동을 통제된 평가에서 관찰했고, 이를 줄이기 위한 초기 훈련 방법과 그 한계를 함께 제시했다.

#openai #apollo-research #gpt-5 #o4-mini