Improving instruction hierarchy in frontier LLMs

🖼️ 인포그래픽

Improving instruction hierarchy in frontier LLMs 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

프런티어 LLM의 안전한 배포를 위해서는 시스템, 개발자, 사용자, 도구 출력 등 여러 출처의 지시가 충돌할 때 더 신뢰도 높은 지시를 일관되게 우선하도록 훈련하는 것이 핵심이다.

📌 핵심 요약

이 글은 AI 시스템이 여러 출처의 지시를 동시에 받을 때, 어떤 지시를 우선해야 하는지를 안정적으로 판단하는 ‘instruction hierarchy’가 안전성·보안·신뢰성의 기반이라고 설명한다.
OpenAI의 지시 계층은 System > developer > user > tool 순서로 구성되며, 낮은 우선순위의 지시는 높은 우선순위 제약과 충돌하지 않을 때만 따라야 한다.
잘못된 우선순위 판단은 금지된 콘텐츠 요청, 개인정보 노출 시도, 온라인 데이터나 도구 출력에 포함된 프롬프트 인젝션 공격으로 이어질 수 있으며, 공통 원인은 모델이 잘못된 지시를 따른다는 데 있다.
OpenAI는 IH-Challenge라는 강화학습용 데이터셋을 설계해 모델이 신뢰 수준에 따라 지시 충돌을 해결하도록 훈련했고, 내부 모델 GPT-5 Mini-R에서 여러 안전성 및 견고성 지표 개선을 보였다고 보고한다.
이 접근은 안전 사양이 시스템 프롬프트에 있을 때 모델의 거절 및 안전한 응답 능력을 높이고, 도구 출력에 섞인 악성 지시를 무시하는 프롬프트 인젝션 견고성도 강화한다.

🧩 주요 포인트

이 글은 AI 시스템이 여러 출처의 지시를 동시에 받을 때, 어떤 지시를 우선해야 하는지를 안정적으로 판단하는 ‘instruction hierarchy’가 안전성·보안·신뢰성의 기반이라고 설명한다.
OpenAI의 지시 계층은 System > developer > user > tool 순서로 구성되며, 낮은 우선순위의 지시는 높은 우선순위 제약과 충돌하지 않을 때만 따라야 한다.
잘못된 우선순위 판단은 금지된 콘텐츠 요청, 개인정보 노출 시도, 온라인 데이터나 도구 출력에 포함된 프롬프트 인젝션 공격으로 이어질 수 있으며, 공통 원인은 모델이 잘못된 지시를 따른다는 데 있다.
OpenAI는 IH-Challenge라는 강화학습용 데이터셋을 설계해 모델이 신뢰 수준에 따라 지시 충돌을 해결하도록 훈련했고, 내부 모델 GPT-5 Mini-R에서 여러 안전성 및 견고성 지표 개선을 보였다고 보고한다.
이 접근은 안전 사양이 시스템 프롬프트에 있을 때 모델의 거절 및 안전한 응답 능력을 높이고, 도구 출력에 섞인 악성 지시를 무시하는 프롬프트 인젝션 견고성도 강화한다.

🧠 상세 정리

1. 여러 출처의 지시가 충돌하는 문제

AI 시스템은 시스템 메시지의 안전 정책, 개발자가 정한 제품 지침, 사용자의 요청, 온라인에서 가져온 정보나 도구 출력 등 다양한 출처의 지시를 동시에 받는다. 이때 모든 지시가 같은 신뢰도를 갖는 것은 아니며, 서로 충돌할 때 어떤 지시를 우선할지 정하는 능력이 필요하다. 글은 이러한 우선순위 판단이 무너지면 모델이 금지된 콘텐츠 요청을 따르거나, 개인정보를 드러내려는 시도에 취약해지거나, 온라인 데이터에 숨은 프롬프트 인젝션을 명령처럼 받아들일 수 있다고 설명한다. 결국 여러 안전·신뢰성 문제의 공통 뿌리는 모델이 더 낮은 신뢰도의 지시를 권위 있는 지시로 오인하는 데 있다.

2. Instruction hierarchy의 원칙

OpenAI가 설명하는 지시 계층은 System > developer > user > tool 순서로 정리된다. 상위 계층의 지시는 더 신뢰할 수 있는 것으로 간주되며, 모델은 하위 계층 지시가 상위 제약과 충돌하지 않을 때만 이를 따라야 한다. 예를 들어 시스템 메시지에 안전 정책이 포함되어 있는데 사용자가 이를 어기라고 요청하면 모델은 사용자의 요청을 거절해야 한다. 또한 도구 출력 안에 악성 지시가 들어 있더라도, 그것을 명령으로 취급하지 않고 신뢰할 수 없는 데이터로 다루어야 한다. 글은 이 원칙이 안전성뿐 아니라 보안과 제품 신뢰성 전반의 기초라고 강조한다.

3. 대규모 훈련의 어려움과 IH-Challenge

글은 강화학습이 지시 계층을 가르치는 자연스러운 방법이라고 설명한다. 충돌하는 지시가 들어 있는 대화를 만들고, 모델이 응답하게 한 뒤, 올바른 우선순위를 따른 경우 보상을 주는 방식이 가능하기 때문이다. 다만 원문은 순진하게 이 방식을 적용할 때 여러 함정이 있다고 언급하며, 이를 해결하기 위해 IH-Challenge라는 강화학습용 훈련 데이터셋을 설계했다고 밝힌다. 각 과제는 대화 형식으로 구성되고, 모델이 다음 메시지를 생성하면 그 응답이 더 높은 수준의 제약을 만족하는지 프로그램적으로 확인할 수 있게 설계된다. 핵심은 단순히 특정 답을 외우게 하는 것이 아니라, 지시의 신뢰 수준을 기준으로 충돌을 해결하는 행동을 훈련하는 데 있다.

4. 벤치마크에서 나타난 견고성 개선

OpenAI는 IH-Challenge로 훈련한 내부 모델을 GPT-5 Mini-R이라고 부르며, 기준 모델 GPT-5-Mini와 비교한 결과를 제시한다. 학술 벤치마크에서는 Gandalf Password의 일부 항목은 유지되거나 소폭 개선되었고, TensorTrust에서는 sys-user와 dev-user 조건 모두에서 점수가 올랐다. RealGuardrails의 Distractors와 Handwritten 평가, System IFEval에서도 개선이 보고된다. 내부 벤치마크에서도 TutorJailbreak, System <> User Conflict, Developer <> User Conflict 등에서 향상이 나타났다. 이러한 결과는 지시 충돌을 직접 훈련한 효과가 특정 훈련 상황에만 머물지 않고 새로운 공격과 상황에도 어느 정도 일반화될 수 있음을 보여주는 근거로 제시된다.

5. 능력 저하 없이 안전성을 높이려는 검증

글은 지시 계층 훈련이 단순히 모델을 더 많이 거절하게 만들어 성능을 낮추는 방식이 아니어야 한다는 점도 다룬다. 제시된 ‘No capability regressions’ 표에서는 IH-Challenge의 과잉거절 관련 지표가 크게 개선되고, TensorTrust의 과잉거절 지표는 거의 유지된다. GPQA Diamond는 동일하고, AIME 2024는 소폭 상승한 것으로 나타난다. 반면 Chat WinRate vs. o1과 Preference Score는 하락한 수치도 함께 공개되어, 모든 선호도 지표가 개선된 것은 아님을 보여준다. 원문의 논점은 안전한 우선순위 판단을 강화하면서도 일반 능력 평가에서 큰 후퇴가 나타나지 않았다는 데 있다.

6. 실제 안전성, 프롬프트 인젝션, 향후 중요성

글은 강한 instruction hierarchy가 실제 배포 환경에서 안전 steerability와 프롬프트 인젝션 견고성을 동시에 높인다고 설명한다. OpenAI는 시스템 프롬프트에 범주별 안전 사양을 추가한 뒤, 안전 민감 대화로 구성된 Production Benchmarks에서 모델의 행동을 평가했다고 한다. IH로 훈련된 모델은 안전 사양이 있을 때 금지 범주에 대해 더 높은 거절률과 안전한 완료율을 보였고, 이것이 전반적인 도움성 하락과 함께 나타난 것은 아니라고 설명된다. 또한 도구 출력에 악성 지시가 섞이는 프롬프트 인젝션 상황에서도, CyberSecEval 2와 내부 벤치마크에서 기준 모델보다 견고성이 개선되었다고 보고한다. 마지막으로 글은 모델이 더 에이전트적으로 변해 도구를 호출하고 신뢰할 수 없는 문서를 읽으며 실제 행동을 수행할수록, 신뢰된 지시를 일관되게 우선하는 능력이 핵심 안전 속성이 된다고 결론짓는다.

🧾 핵심 주장 / 시사점

지시 계층 문제는 개별 안전 정책의 문제가 아니라, 모델이 어떤 출처의 말을 ‘명령’으로 받아들일지 결정하는 권한 관리 문제에 가깝다.
프롬프트 인젝션 방어는 악성 문구를 모두 탐지하는 방식만으로는 부족하며, 도구 출력 자체를 낮은 신뢰도의 정보로 취급하는 구조적 훈련이 중요하다.
IH-Challenge의 핵심 가치는 단순한 벤치마크 점수 향상이 아니라, 지시 충돌 해결 능력이 안전 steerability와 보안 견고성으로 함께 일반화될 수 있음을 보인 데 있다.