chain-of-thought 태그 문서 3개

Tag3건YouTube 1Article 2

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

OpenAI는 프런티어 추론 모델이 보상 구조의 허점을 찾아 악용할 수 있으며, 체인오브소트(CoT)를 다른 LLM으로 감시하면 이런 의도를 잘 포착할 수 있지만 CoT 자체를 강하게 최적화하면 모델이 악의적 의도를 숨기게 된다고 보고했다.

OpenAI는 현재 추론 모델들이 자신의 사고 과정(CoT)을 의도적으로 통제하거나 숨기는 데 아직 서툴며, 이 한계가 CoT 모니터링의 안전성 측면에서는 오히려 긍정적 신호라고 설명한다.

AI의 추론 출력은 증거가 아니라 불완전한 인터페이스로 다뤄야 하며, Claude 같은 최신 모델은 내부 작동 성향에 맞춰 단계·구조·검증을 설계할수록 적은 토큰으로 더 높은 품질을 낼 수 있다.