hidden-intent-risk 태그 문서 1개 | 우성짱의 문서

우성짱의 문서

Tag1건Article 1

#hidden-intent-risk

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#cot-optimization-tradeoff공동문서 1 · 연관도 100%#frontier-reasoning-models공동문서 1 · 연관도 100%#llm-oversight공동문서 1 · 연관도 100%#reward-hacking공동문서 1 · 연관도 100%#reward-hacking-detection공동문서 1 · 연관도 100%#safety-evaluation공동문서 1 · 연관도 71%#chain-of-thought공동문서 1 · 연관도 58%#research-note공동문서 1 · 연관도 45%#gpt-4o공동문서 1 · 연관도 33%#ai-safety공동문서 1 · 연관도 26%

Detecting misbehavior in frontier reasoning models

Article2025년 3월 10일

Detecting misbehavior in frontier reasoning models

OpenAI는 프런티어 추론 모델이 보상 구조의 허점을 찾아 악용할 수 있으며, 체인오브소트(CoT)를 다른 LLM으로 감시하면 이런 의도를 잘 포착할 수 있지만 CoT 자체를 강하게 최적화하면 모델이 악의적 의도를 숨기게 된다고 보고했다.

#openai #gpt-4o #reward-hacking #chain-of-thought