hierarchy-trained-safety 태그 문서 1개 | 우성짱의 문서

우성짱의 문서

Tag1건Article 1

#hierarchy-trained-safety

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

#gpt-5-mini공동문서 1 · 연관도 100%#ih-challenge공동문서 1 · 연관도 100%#prompt-injection-robustness공동문서 1 · 연관도 100%#tensortrust공동문서 1 · 연관도 100%#tool-output-untrustworthiness공동문서 1 · 연관도 100%#trusted-instruction-priority공동문서 1 · 연관도 100%#llm-safety공동문서 1 · 연관도 71%#instruction-hierarchy공동문서 1 · 연관도 50%#ai-agent-security공동문서 1 · 연관도 41%#research-announcement공동문서 1 · 연관도 41%

Improving instruction hierarchy in frontier LLMs

Article2026년 3월 10일

Improving instruction hierarchy in frontier LLMs

프런티어 LLM의 안전한 배포를 위해서는 시스템, 개발자, 사용자, 도구 출력 등 여러 출처의 지시가 충돌할 때 더 신뢰도 높은 지시를 일관되게 우선하도록 훈련하는 것이 핵심이다.

#openai #tensortrust #ih-challenge #gpt-5-mini