More details on Fable 5’s cyber safeguards and our jailbreak framework

🖼️ 인포그래픽

More details on Fable 5’s cyber safeguards and our jailbreak framework 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Anthropic은 Claude Fable 5 재배포와 함께 사이버 보안 분류기의 차단 기준, 듀얼유스 판단, 안전 여백, 그리고 AI 탈옥 심각도 프레임워크 초안을 공개했다.

📌 핵심 요약

Claude Fable 5는 전 세계 사용자에게 다시 배포되었고, Anthropic은 모델과 함께 작동하는 사이버 보안 안전 분류기의 목적과 차단 범위를 상세히 설명했다.
Anthropic은 사이버 보안이 방어와 공격에 모두 쓰일 수 있는 듀얼유스 영역이기 때문에 모든 관련 활동을 막는 대신, 위험도와 방어적 효용을 기준으로 네 가지 사용 범주를 구분한다고 밝혔다.
분류기 범주는 금지 사용, 고위험 듀얼유스, 저위험 듀얼유스, 선의의 사용으로 나뉘며, Fable 5에서는 이전 모델보다 더 큰 안전 여백을 적용해 일부 선의적 요청도 보수적으로 차단될 수 있다고 설명했다.
금지 사용에는 랜섬웨어, 와이퍼, 방어 회피, 명령제어, 탈취 데이터 유출, 악성코드 개발·전파, 공격 인프라, 인터넷 백본 공격 등이 포함되며, 고위험 듀얼유스에는 침투 테스트, 권한 상승, 익스플로잇 개발, 산업제어·통신·금융 인프라 보안 평가 등이 포함된다.
Anthropic은 AI 탈옥의 심각도를 일관되게 설명할 프레임워크 초안을 제시하고, 학계·산업계·시민사회·정부의 논의와 피드백, 그리고 HackerOne 프로그램을 통한 Fable 5 사이버 탈옥 제보를 요청했다.

🧩 주요 포인트

Claude Fable 5는 전 세계 사용자에게 다시 배포되었고, Anthropic은 모델과 함께 작동하는 사이버 보안 안전 분류기의 목적과 차단 범위를 상세히 설명했다.
Anthropic은 사이버 보안이 방어와 공격에 모두 쓰일 수 있는 듀얼유스 영역이기 때문에 모든 관련 활동을 막는 대신, 위험도와 방어적 효용을 기준으로 네 가지 사용 범주를 구분한다고 밝혔다.
분류기 범주는 금지 사용, 고위험 듀얼유스, 저위험 듀얼유스, 선의의 사용으로 나뉘며, Fable 5에서는 이전 모델보다 더 큰 안전 여백을 적용해 일부 선의적 요청도 보수적으로 차단될 수 있다고 설명했다.
금지 사용에는 랜섬웨어, 와이퍼, 방어 회피, 명령제어, 탈취 데이터 유출, 악성코드 개발·전파, 공격 인프라, 인터넷 백본 공격 등이 포함되며, 고위험 듀얼유스에는 침투 테스트, 권한 상승, 익스플로잇 개발, 산업제어·통신·금융 인프라 보안 평가 등이 포함된다.
Anthropic은 AI 탈옥의 심각도를 일관되게 설명할 프레임워크 초안을 제시하고, 학계·산업계·시민사회·정부의 논의와 피드백, 그리고 HackerOne 프로그램을 통한 Fable 5 사이버 탈옥 제보를 요청했다.

🧠 상세 정리

1. Fable 5 재배포와 공개의 목적

Anthropic은 Claude Fable 5가 전 세계 사용자에게 다시 배포되었으며, 이를 계기로 두 가지 내용을 추가로 설명한다고 밝혔다. 첫째는 모델과 함께 작동하는 사이버 보안 안전장치, 특히 위험하거나 잠재적으로 위험한 사이버 보안 활용을 감지하고 차단하는 안전 분류기에 관한 세부 정보다. 둘째는 Glasswing 파트너들과 함께 작업 중인 AI 탈옥 심각도 프레임워크의 초기 초안이다. 글의 핵심은 Fable 5를 완전히 제한된 도구로 만들기보다, 방어적 활용은 가능하게 하면서 오용 가능성이 큰 요청은 더 체계적으로 막겠다는 접근을 설명하는 데 있다.

2. AI 탈옥 문제와 심각도 기준의 필요성

Anthropic은 AI 탈옥을 모델의 안전장치를 우회하도록 유도하는 비정상적 프롬프트 방식으로 설명한다. 이러한 탈옥은 단순히 사소한 바람직하지 않은 행동을 열어주는 수준일 수도 있고, 훨씬 광범위한 해로운 출력을 가능하게 해 모델을 더 위험하게 만들 수도 있다. 문제는 특정 탈옥이 얼마나 심각한지 설명하는 합의된 기준이 아직 없다는 점이다. Anthropic은 일관된 프레임워크가 있으면 AI 개발자와 정부가 각 탈옥이 초래하는 위험을 같은 언어로 논의할 수 있다고 본다. 이번 공개는 확정된 표준이라기보다 현재의 사고를 공유하고 외부 논의를 촉발하려는 성격을 갖는다.

3. 사이버 보안 영역의 듀얼유스 난점

글은 사이버 보안이 AI 안전장치 설계에서 특히 어려운 분야라고 설명한다. 많은 사이버 보안 역량은 선의의 방어 목적에도 쓰일 수 있고, 악의적 공격의 전조로도 쓰일 수 있기 때문이다. 예를 들어 방어자가 코드베이스를 스캔해 소프트웨어 취약점을 찾는 일은 조직의 보안을 높이는 데 필요하지만, 같은 능력이 잘못된 손에 들어가면 사이버 공격 준비에 활용될 수 있다. 따라서 Anthropic은 Fable 5에서 모든 사이버 보안 관련 활동을 차단하려는 것이 아니라고 밝힌다. 대신 활동의 위험도, 실제 악용 가능성, 방어적 효용을 구분해 분류기가 다르게 반응하도록 설계했다.

4. 네 가지 사이버 보안 사용 범주

Fable 5의 안전 분류기는 사이버 보안 사용을 네 가지 범주로 나누어 판단하도록 설계되어 있다. 금지 사용은 중대한 피해를 일으키거나 대부분의 사용에서 해로울 가능성이 높고 방어적 효용이 거의 없는 활동으로, 분류기는 이를 차단하도록 의도되어 있다. 고위험 듀얼유스는 악의적 행위자들이 널리 사용하는 동시에 유익한 응용도 있는 활동이며, 현재는 차단 대상이다. 저위험 듀얼유스는 주로 방어적 이익을 제공하지만 악의적 행위자에게도 일정한 가치가 있을 수 있는 활동으로, 모니터링되거나 안전 여백 차원에서 일부 차단될 수 있다. 선의의 사용은 해를 일으키지 않는 활동으로 허용하되 일정 수준의 모니터링이 수반된다.

5. 안전 여백과 보수적 차단

Anthropic은 저위험 듀얼유스 범주가 이전 Fable 재배포 글에서 설명한 ‘안전 여백’과 상당히 겹친다고 설명한다. 안전 여백에는 원칙적으로 허용하고 싶은 선의적 사용도 포함될 수 있지만, 유해한 요청을 놓치지 않기 위해 신중하게 차단되는 요청들이 들어간다. 즉 요청이 분류기를 통과하려면 매우 명확하게 안전해 보여야 한다. Fable 5에서는 이전 모델보다 이 안전 여백을 더 크게 설정했기 때문에, 실제로는 선의적인 프롬프트가 차단되는 거짓 양성이 늘어날 수 있다. Anthropic은 이 선택이 불편을 만들 수 있더라도 해로운 결과를 예방한다는 확신을 높이기 위한 조치라고 설명한다.

6. 분류기 외의 추가 안전 계층

글은 안전 분류기가 전체 보호 체계의 한 부분일 뿐이라고 강조한다. Anthropic은 분류기 외에도 접근 제어, 모델 안전 학습, 오프라인 모니터링을 사용해 추가적인 안전 계층을 구성한다고 설명한다. 이는 단일 차단 장치에 모든 책임을 맡기지 않고, 여러 통제 수단을 겹쳐 위험을 낮추려는 접근이다. 또한 아래에 제시한 세부 예시는 현재 분류기가 의도하는 행동을 설명하기 위한 것이며, 실제 환경에서의 피드백과 학습에 따라 바뀔 수 있다고 덧붙인다. 따라서 이번 문서는 고정된 최종 정책이라기보다 현재 운영 기준과 향후 조정 가능성을 함께 공개한 성격을 가진다.

7. 금지 사용의 범위와 이유

금지 사용 범주는 방어적 이점보다 공격자에게 주는 이익이 훨씬 큰 활동들로 구성된다. 여기에는 랜섬웨어나 갈취 목적 암호화, 와이퍼, 웹사이트 변조, 데이터나 프로세스 무결성 훼손, 서비스 거부 같은 파괴적 영향이 포함된다. 또한 전력, 물, 석유·가스, 교통, 의료기기 등 물리적 프로세스를 디지털 방식으로 조작하는 사이버-물리적 방해 행위도 포함된다. 방어 회피, 명령제어와 은밀한 채널, 탈취 데이터 유출, 악성코드 개발·개선·수정·디버깅, 악성코드 전달과 전파, 공격 인프라 구축, BGP 하이재킹이나 DNS·인증기관·NTP 조작 같은 인터넷 백본 공격도 차단 대상으로 제시된다. 일부 항목은 방어자도 쓰는 경우가 있지만, 현실 공격에서 자주 관찰되고 피해 가능성이 높아 금지된다고 설명한다.

8. 고위험 듀얼유스와 맥락의 중요성

고위험 듀얼유스 활동은 피해 가능성이 높지만 사이버 보안 전문가들의 일상 업무에도 포함되는 활동이다. 예를 들어 정당한 보안 평가, 침투 테스트, 레드팀 활동에서는 예상치 못한 방식으로 접근 권한을 얻거나 권한을 상승시키고, 내부 이동을 하거나 익스플로잇을 개발하는 일이 수행될 수 있다. Anthropic은 이러한 활동이 악의적 행동을 모방하도록 설계되어 있기 때문에 고위험이라고 설명한다. 합법적 사례와 유해한 사례를 가르는 것은 누가 수행하는지, 어떤 권한 아래 수행하는지라는 맥락이다. Fable 5에서는 알려진 선의의 행위자에게만 접근을 제한할 수 있는 더 나은 통제가 마련되기 전까지 이러한 유형의 요청을 차단할 것으로 기대한다고 밝힌다.

9. 취약점 발견, 익스플로잇, 저위험 활용의 구분

Anthropic은 Fable 5에서 모든 취약점 발견을 막으려는 것이 아니라, 다른 널리 사용 가능한 모델들이 쉽게 찾지 못하는 고상승 취약점 발견을 통제하려 한다고 설명한다. 방어적 사이버 보안에서 취약점 발견은 매우 중요한 기능이며, 책임 있는 공개는 방어자에게 고칠 대상을 알려주기 때문에 순효과가 긍정적이라는 보안 커뮤니티의 오랜 견해도 언급된다. 반면 공개 취약점 보고서나 보안 패치를 바탕으로 공격자가 익스플로잇을 만들 수 있기 때문에 자동 익스플로잇 생성은 차단한다고 밝혔다. 저위험 듀얼유스에는 공개 출처 정보 수집, 공개 접근 가능한 시스템 스캔이나 열거, 공개 서비스 열거, 다크웹 연구, 기존 모델이나 도구로도 가능한 취약점 식별, SSL·TLS 같은 암호 프로토콜 테스트 등이 포함된다. 이런 활동은 주로 방어 쪽에 기울지만, 안전 여백 때문에 일부는 여전히 차단될 수 있다.

🧾 핵심 주장 / 시사점

Anthropic의 접근은 사이버 보안 기능을 일괄 차단하지 않고, 방어적 효용과 악용 가능성 사이의 비대칭을 기준으로 세분화하려는 시도다.
Fable 5에서 안전 여백을 크게 둔 결정은 유해 요청을 놓치지 않기 위한 보수적 운영이지만, 동시에 선의적 사용자가 정상 요청을 차단당할 가능성도 높인다.
AI 탈옥 심각도 프레임워크와 HackerOne 제보 프로그램은 모델 안전 문제를 기업 내부 정책에만 두지 않고 외부 연구자, 정부, 산업계와 함께 표준화하려는 움직임으로 볼 수 있다.

✅ 액션 아이템

Anthropic가 제시한 위험도·방어적 효용 축으로 네 가지 듀얼유스 범주를 재정렬하고 적용 기준의 일관성을 점검한다.
Fable 5의 안전 여백 정책을 반영해 선의적 요청의 오탐 사례를 추출하고 차단 강도가 과도해지는 구간을 분기별로 비교한다.
탈옥 심각도 프레임워크 초안에 맞춰 금지·고위험·저위험·선의 사용 활동의 판별 규칙을 실제 제보 유형별로 정합성 있게 정리한다.

❓ 열린 질문

금지 사용(랜섬웨어, 와이퍼, 공격 인프라, 인터넷 백본 공격)과 고위험 듀얼유스(침투 테스트, 익스플로잇 개발, 권한 상승) 경계는 어디까지인가?
안전 여백을 넓힌 Fable 5가 선의적 요청을 더 막을 때 사용자 가치 저하를 허용 가능한 수준으로 보는 기준은 무엇인가?
HackerOne 제보와 학계·산업계·시민사회·정부 피드백을 어떤 판단 기준으로 통합하면 탈옥 심각도 프레임워크의 일관성이 유지되는가?