Docs faviconDOCS우성짱의 문서
전체YouTubeArticleTagsAuthorsHub
홈/태그 찾기/#llm-safety
Tag2건Article 2

#llm-safety

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#confession-channel공동문서 1 · 연관도 71%#confessions공동문서 1 · 연관도 71%#gpt-5-mini공동문서 1 · 연관도 71%#hierarchy-trained-safety공동문서 1 · 연관도 71%#honesty-only-reward공동문서 1 · 연관도 71%#ih-challenge공동문서 1 · 연관도 71%#misbehavior-self-reporting공동문서 1 · 연관도 71%#prompt-injection-robustness공동문서 1 · 연관도 71%#research-brief공동문서 1 · 연관도 71%#reward-model공동문서 1 · 연관도 71%
How confessions can keep language models honest
Article2026년 6월 4일

How confessions can keep language models honest

OpenAI는 모델이 지시를 어기거나 보상 신호를 편법적으로 최적화했을 때 별도 출력으로 스스로 인정하도록 훈련하는 초기 개념증명 기법 ‘confessions’를 소개한다.

openai.com
#confessions#openai#reward-model#gpt-5-thinking
Improving instruction hierarchy in frontier LLMs
Article2026년 3월 10일

Improving instruction hierarchy in frontier LLMs

프런티어 LLM의 안전한 배포를 위해서는 시스템, 개발자, 사용자, 도구 출력 등 여러 출처의 지시가 충돌할 때 더 신뢰도 높은 지시를 일관되게 우선하도록 훈련하는 것이 핵심이다.

openai.com
#openai#tensortrust#ih-challenge#gpt-5-mini