Trading Inference-Time Compute for Adversarial Robustness

🖼️ 인포그래픽

Trading Inference-Time Compute for Adversarial Robustness 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI는 o1 계열 추론 모델이 추론 시점에 더 오래 ‘생각’하도록 계산 자원을 늘리면 여러 적대적 공격에 대한 성공 확률이 낮아질 수 있다는 초기 증거를 제시했다.

📌 핵심 요약

적대적 공격에 대한 견고성은 2014년의 이미지 오분류 사례 이후 AI 분야의 오래된 난제로 남아 있으며, 고위험 응용과 웹 탐색·행동 수행 에이전트의 확산으로 중요성이 더 커졌다.
OpenAI는 새 논문에서 o1-preview와 o1-mini 같은 추론 모델에 추론 시점 계산량을 더 많이 부여하면, 여러 과제와 공격 방식에서 공격 성공 확률이 감소하는 경향을 관찰했다고 설명한다.
실험은 수학 과제, SimpleQA의 적대적 변형, Attack Bard의 적대적 이미지, StrongREJECT의 오용 유도 프롬프트, 내부 모델 사양 준수 평가 등 다양한 작업을 포함했다.
공격 표면으로는 many-shot 공격, 소프트 토큰 최적화, 언어 모델 프로그램 기반 AI 레드팀 공격, 적대적 멀티모달 입력 등이 사용되었으며, 모든 공격이 모든 데이터셋에 적용된 것은 아니라고 명시한다.
다만 추론 시점 계산 증가가 항상 견고성을 높인 것은 아니며, 일부 경우에는 공격 성공률이 처음에 증가하거나 StrongREJECT의 LMP 공격처럼 계산량을 늘려도 성공률이 줄지 않는 예외가 있었다.

🧩 주요 포인트

적대적 공격에 대한 견고성은 2014년의 이미지 오분류 사례 이후 AI 분야의 오래된 난제로 남아 있으며, 고위험 응용과 웹 탐색·행동 수행 에이전트의 확산으로 중요성이 더 커졌다.
OpenAI는 새 논문에서 o1-preview와 o1-mini 같은 추론 모델에 추론 시점 계산량을 더 많이 부여하면, 여러 과제와 공격 방식에서 공격 성공 확률이 감소하는 경향을 관찰했다고 설명한다.
실험은 수학 과제, SimpleQA의 적대적 변형, Attack Bard의 적대적 이미지, StrongREJECT의 오용 유도 프롬프트, 내부 모델 사양 준수 평가 등 다양한 작업을 포함했다.
공격 표면으로는 many-shot 공격, 소프트 토큰 최적화, 언어 모델 프로그램 기반 AI 레드팀 공격, 적대적 멀티모달 입력 등이 사용되었으며, 모든 공격이 모든 데이터셋에 적용된 것은 아니라고 명시한다.
다만 추론 시점 계산 증가가 항상 견고성을 높인 것은 아니며, 일부 경우에는 공격 성공률이 처음에 증가하거나 StrongREJECT의 LMP 공격처럼 계산량을 늘려도 성공률이 줄지 않는 예외가 있었다.

🧠 상세 정리

1. 오래된 적대적 견고성 문제와 새로운 긴급성

글은 적대적 공격에 대한 견고성이 10년 넘게 AI의 난제로 남아 있었다는 배경에서 출발한다. 2014년 연구자들은 인간 눈에는 거의 보이지 않는 미세한 교란만으로도 모델이 이미지를 잘못 분류할 수 있음을 보였고, 이는 모델 취약성의 대표 사례가 되었다. 이후 많은 연구가 이어졌지만 문제는 해결되지 않았으며, Nicholas Carlini가 “10년 동안 9,000편이 넘는 논문을 썼지만 아무 데도 가지 못했다”고 표현할 만큼 진전이 제한적이었다고 소개한다. 특히 모델 크기를 키우는 것만으로는 적대적 공격에 대한 견고성이 충분히 개선되지 않았다는 점을 문제의 핵심으로 짚는다. 이 문제는 모델이 고위험 분야에 쓰이고, 사용자를 대신해 웹을 탐색하거나 행동하는 에이전트로 활용되면서 더 시급한 과제가 되었다.

2. 추론 시점 계산량을 견고성 자원으로 보는 관점

OpenAI가 제시한 핵심 주장은 추론 시점 계산량, 즉 모델이 답을 내기 전에 더 많은 시간과 자원을 들여 ‘생각’하게 하는 방식이 적대적 견고성을 높일 수 있다는 것이다. 글은 이를 o1-preview와 o1-mini 같은 추론 모델을 통해 살펴보며, 이 모델들이 추론 중 계산을 조절할 수 있다는 점을 강조한다. 기존의 대표적 방어 접근인 적대적 학습과 달리, 여기서 관찰된 견고성 증가는 모델이 공격의 성격을 사전에 알고 훈련된 결과가 아니라고 설명한다. 따라서 예기치 못한 공격에 대해서도 추론 시점 확장이 도움이 될 가능성을 시사한다. 다만 논문은 이를 확정적 결론이 아니라 초기 증거로 제시하며, 더 많은 연구가 필요하다는 전제를 분명히 둔다.

3. 실험 설계와 평가 대상

연구는 추론 시점 계산량 증가가 적대적 공격 성공 확률에 어떤 영향을 미치는지 평가하기 위해 다양한 작업과 공격 방법을 사용했다. 작업에는 아주 단순한 덧셈·곱셈부터 더 복잡한 MATH 문제까지 포함된 수학 과제가 있었고, 공격자는 정답 대신 42를 출력하게 하거나 정답에 1을 더한 값, 또는 정답의 7배를 출력하게 하는 목표를 가졌다. 또한 브라우징 없이는 해결하기 어려운 질문으로 구성된 SimpleQA 사실성 벤치마크에 웹페이지 내 적대적 프롬프트 삽입을 시뮬레이션했다. Attack Bard 논문의 적대적 이미지, StrongREJECT의 오용 유도 프롬프트, 모델 사양의 한 규칙을 따르는지 보는 내부 평가도 포함되었다. 이처럼 연구는 텍스트, 수학, 사실성, 이미지, 안전 사양 준수 등 여러 유형의 취약성을 함께 살펴보는 방식으로 구성되었다.

4. 공격 표면과 관찰된 일반적 패턴

논문은 공격자가 사용할 수 있는 여러 공격 표면도 함께 다룬다. 예컨대 Anthropic 2024에서 언급된 many-shot 공격처럼 다수의 나쁜 입력·출력 예시를 제공하는 방식, 임의의 임베딩 벡터인 소프트 토큰을 최적화하는 방식, 언어 모델을 제어 흐름에 포함한 구조화된 프로그램인 LMP를 통해 AI 레드팀을 수행하는 방식이 포함되었다. 또한 적대적 멀티모달 입력도 공격 표면으로 고려되었다. OpenAI는 모든 공격이 모든 데이터셋에 적용된 것은 아니며 자세한 조합은 논문을 참조해야 한다고 덧붙인다. 전형적인 결과에서는 공격자의 자원이 늘수록 공격 성공 확률이 올라가지만, 공격자 자원이 고정되어 있을 때는 모델의 추론 시점 계산량이 늘어날수록 성공 확률이 낮아지는 패턴이 관찰되었다. 많은 경우 이 확률은 거의 0에 가까워지기도 했다고 설명한다.

5. 추론 계산이 항상 방어가 되지는 않는 예외

글은 추론 시점 계산량 증가가 언제나 견고성 향상으로 이어지는 것은 아니라고 분명히 밝힌다. 일부 경우에는 방어자인 모델의 추론 계산량이 늘어날 때 처음에는 오히려 공격 성공률이 증가하다가 이후 감소하는 현상이 나타났다. OpenAI는 이것이 공격 목표 자체를 달성하려면 모델이 먼저 문제를 풀 수 있어야 하기 때문일 수 있다고 해석한다. 예를 들어 정답에 1을 더해 응답하게 하는 공격에서는 모델이 수학 문제를 풀 수 있을 만큼의 계산 능력을 가져야 공격자가 원하는 잘못된 답도 만들 수 있다. 더 중요한 예외로는 StrongREJECT 벤치마크의 LMP 공격이 언급된다. 이 벤치마크의 일부 프롬프트는 모든 상황에서 금지되는 정보만을 요구하는 것이 아니어서, LMP가 사양을 준수하면서도 정보를 제공하는 맥락을 찾아낼 수 있다고 설명한다.

6. 계산 사용 통제의 한계와 연구 방향

OpenAI는 모델의 테스트 시점 계산 사용을 완벽히 통제하지 못한다는 한계도 지적한다. 공격자는 때때로 모델이 충분히 생각하지 않도록 속이거나, 주어진 추론 계산량을 생산적이지 않은 방식으로 쓰게 만들 수 있었다. 이 논문에서는 모델이 할당된 계산을 ‘현명하게’ 사용하도록 가르치는 문제를 깊이 탐구하지 않았고, 가장 단순한 방식으로 실험했다고 설명한다. 따라서 향후 연구에서는 단순히 계산량을 늘리는 것뿐 아니라, 모델이 그 계산을 어디에 어떻게 배분하고 활용해야 하는지를 학습시키는 방향이 중요해질 수 있다. 결론적으로 글은 추론 시점 계산이 적대적 견고성을 높이는 데 유망한 신호를 보였다고 평가하지만, 그 가능성을 실제 방어 체계로 전환하려면 남은 한계와 열린 질문을 해결해야 한다고 마무리한다.

🧾 핵심 주장 / 시사점

모델 크기 확장만으로 해결되지 않았던 적대적 견고성 문제에서, 추론 시점 계산 확장은 별도의 방어 축이 될 수 있음을 보여준다.
견고성 향상이 공격 유형과 맥락에 따라 달라졌다는 점은, 단일한 ‘계산량 증가’ 전략만으로 안전 문제를 일반 해결할 수 없음을 시사한다.
향후 핵심 과제는 더 많이 생각하게 하는 것뿐 아니라, 공격 상황에서도 모델이 주어진 계산을 낭비하지 않고 올바른 검토와 거부 판단에 쓰도록 만드는 것이다.