Docs faviconDOCS우성짱의 문서
전체YouTubeArticleTagsAuthorsHub
홈/태그 찾기/#o4-mini
Tag2건Article 2

#o4-mini

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#ai-model-evaluation공동문서 1 · 연관도 71%#apollo-research공동문서 1 · 연관도 71%#economic-task-evaluation공동문서 1 · 연관도 71%#expert-assessed-benchmarking공동문서 1 · 연관도 71%#expert-blind-comparison공동문서 1 · 연관도 71%#gdpval공동문서 1 · 연관도 71%#hidden-misalignment공동문서 1 · 연관도 71%#real-world-benchmarks공동문서 1 · 연관도 71%#sandbagging-risk공동문서 1 · 연관도 71%#scheming-detection공동문서 1 · 연관도 71%
Detecting and reducing scheming in AI models
Article2025년 9월 17일

Detecting and reducing scheming in AI models

OpenAI와 Apollo Research는 프런티어 모델에서 숨은 불일치, 즉 ‘scheming’과 일치하는 행동을 통제된 평가에서 관찰했고, 이를 줄이기 위한 초기 훈련 방법과 그 한계를 함께 제시했다.

openai.com
#openai#apollo-research#gpt-5#o4-mini
Measuring the performance of our models on real-world tasks
Article2025년 9월 25일

Measuring the performance of our models on real-world tasks

OpenAI는 실제 경제 활동에서 수행되는 지식노동 과제를 기준으로 AI 모델 성능을 측정하는 새 평가 체계 GDPval을 소개했다.

openai.com
#gdpval#openai#gpt-4o#o4-mini