Claude Fable 5 and new safety fables

🖼️ 인포그래픽

Claude Fable 5 and new safety fables 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Nathan Lambert는 Claude Fable 5가 대중에게 공개된 가장 강력한 모델로 보이지만, Anthropic이 일부 안전 조치를 사용자에게 보이지 않게 적용한 방식은 신뢰와 시장 권력의 문제를 드러낸다고 비판한다.

📌 핵심 요약

글은 Anthropic이 Claude Fable 5를 소비자와 기업 사용자에게 공개한 사건을 다루며, 이 모델이 공개 접근 가능한 AI 중 가장 뛰어난 성능을 보이는 중대한 기술적 성취라고 평가한다.
저자는 Claude Fable 5의 벤치마크 도약과 실제 활용 가능성이 frontier AI 접근의 판도를 바꾸는 수준이라고 보지만, 동시에 이런 성능 향상이 더 강한 안전 조치와 결합되면서 새로운 권력 정치가 나타났다고 본다.
Anthropic은 사이버보안, 생물·화학, 모델 증류 같은 영역에는 별도 classifier를 적용하고, 해당 요청이 감지되면 Claude Opus 4.8로 fallback되며 사용자에게 이를 알리는 방식을 취했다.
그러나 frontier LLM 개발 관련 요청에는 사용자에게 알리지 않는 방식으로 모델의 효과를 제한한다고 문서화했으며, 저자는 이를 ‘안전’이라기보다 경쟁 우위 방어와 시장 고착화에 가까운 조치로 해석한다.
저자는 투명한 안전 정책과 조용한 모델 조작이 혼재된 점이 Anthropic의 안전 프레임 전체에 의문을 만든다고 주장하며, 안전 연구는 개별 회사가 독자적으로 정할 문제가 아니라 공통 이해와 정보 공유 위에서 구축되어야 한다고 강조한다.

🧩 주요 포인트

글은 Anthropic이 Claude Fable 5를 소비자와 기업 사용자에게 공개한 사건을 다루며, 이 모델이 공개 접근 가능한 AI 중 가장 뛰어난 성능을 보이는 중대한 기술적 성취라고 평가한다.
저자는 Claude Fable 5의 벤치마크 도약과 실제 활용 가능성이 frontier AI 접근의 판도를 바꾸는 수준이라고 보지만, 동시에 이런 성능 향상이 더 강한 안전 조치와 결합되면서 새로운 권력 정치가 나타났다고 본다.
Anthropic은 사이버보안, 생물·화학, 모델 증류 같은 영역에는 별도 classifier를 적용하고, 해당 요청이 감지되면 Claude Opus 4.8로 fallback되며 사용자에게 이를 알리는 방식을 취했다.
그러나 frontier LLM 개발 관련 요청에는 사용자에게 알리지 않는 방식으로 모델의 효과를 제한한다고 문서화했으며, 저자는 이를 ‘안전’이라기보다 경쟁 우위 방어와 시장 고착화에 가까운 조치로 해석한다.
저자는 투명한 안전 정책과 조용한 모델 조작이 혼재된 점이 Anthropic의 안전 프레임 전체에 의문을 만든다고 주장하며, 안전 연구는 개별 회사가 독자적으로 정할 문제가 아니라 공통 이해와 정보 공유 위에서 구축되어야 한다고 강조한다.

🧠 상세 정리

1. Claude Fable 5 공개와 글의 문제의식

이 글은 Anthropic이 Claude Fable 5를 소비자와 기업 사용자에게 공개한 일을 출발점으로 삼는다. 저자는 이 모델이 Mythos-class 모델의 일반 접근 버전이며, 공개와 함께 여러 안전 조치가 도입되었다고 설명한다. 일부 조치는 사용자에게 명시적으로 알려졌지만, 일부는 사용자가 알지 못하는 방식으로 모델 동작을 바꾸는 형태였다는 점이 핵심 문제로 제기된다. 저자는 다음 단계의 AI 능력 향상이 더 무거운 안전 조치와 함께 등장한 것이 놀랍지 않아야 한다고 말하면서도, Anthropic이 현재의 선도적 위치를 보호하거나 굳히려는 의도를 드러낸다고 본다. 글 전체의 중심 논점은 안전이라는 명분이 어떤 방식으로 frontier AI 접근과 권력 구조를 재편하는가에 있다.

2. 가장 똑똑한 공개 모델이라는 평가

저자는 세부적인 안전 논의에 들어가기 전에 Claude Fable 5의 품질과 성능을 먼저 강조한다. 그의 평가에 따르면 이 모델은 일반 대중이 사용할 수 있는 모델 중 가장 똑똑한 모델이며, 당대의 거의 모든 관련 벤치마크에서 뚜렷한 도약을 보인다. 가격도 기존 Opus 모델의 두 배 수준으로 제시되며, 저자는 이러한 능력 향상이 LLM 경쟁이 시작된 지 몇 년이 지난 시점에도 여전히 큰 모델 개선이 가능하다는 신호라고 본다. 그는 이 모델에 추론 시점 확장이나 강화학습 같은 명확한 단일 돌파구가 문서화되어 있지는 않다고 말한다. 대신 전체 스택 전반의 개선이 누적된 결과일 가능성을 언급하며, 이를 만든 직원들은 자부심을 가져도 된다고 평가한다.

3. 벤치마크, 실제 성능, 그리고 진보 속도

저자는 Claude Fable 5의 벤치마크 점프가 너무 커서 직접 많이 시험하지 않아도 뛰어난 도구임을 알 수 있는 수준이라고 말한다. 동시에 그는 Anthropic이 OpenAI나 Gemini와 비교할 때 벤치마크에 상대적으로 덜 집착해 온 연구소라는 점을 상기시킨다. 과거에는 벤치마크 상승폭이 작아도 실제 세계에서의 성능 향상이 클 수 있다는 논지를 펼쳤고, 이번 사례는 그런 논의가 더 복잡해졌음을 보여준다고 본다. 그는 올해 여러 모델에 대해 벤치마크를 신뢰하기 어렵다는 글을 쓴 바 있으며, 특히 벤치마크가 크게 움직이지 않을 때 평가와 투명성 문제가 더 중요해진다고 본다. 이번 모델은 AI에 익숙한 작업자들이 코딩 등 지적 작업 흐름을 에이전트 중심으로 재구성해야 한다는 판단을 강화하는 사례로 제시된다.

4. 더 강한 모델이 낳는 새로운 안전 게임

저자는 더 똑똑한 모델이 등장할수록 새로운 안전 장치와 접근 제한이 따라온다고 설명한다. Claude Fable 5에는 필수 데이터 보존 정책, 추가 프롬프트 필터 등 여러 안전 도구가 결합되어 있으며, 저자는 이 중 어떤 요소가 왜 해로운지 정확히 구분해야 한다고 강조한다. Anthropic은 사이버보안, 표적 모델 증류, 연구 생물학 영역에 대해 새 classifier를 도입했다고 설명했다. 이 classifier는 잠재적 오용이나 jailbreak 시도를 감지해 주 모델이 응답하지 않도록 하며, 특정 영역 요청은 Claude Opus 4.8로 자동 처리된다. 이 fallback은 사용자에게 알려지며, Anthropic은 대부분의 세션에서는 fallback이 발생하지 않아 Fable 5 성능이 그대로 유지된다고 설명한다.

5. 명시적 fallback과 사용자가 겪는 마찰

사이버보안과 생물학 관련 안전 필터는 이미 온라인에서 예시가 퍼지고 있으며, 저자의 관찰에 따르면 꽤 민감하게 작동하는 것으로 보인다. 이런 필터는 사용자에게 불편하고 답답한 경험을 만들 수 있지만, 저자는 Anthropic이 이런 조치를 취할 권한이 있으며 지적으로도 일관된 선택이라고 본다. 중요한 점은 이 영역에서는 사용자에게 해당 조치가 작동했다는 사실이 명시적으로 알려진다는 것이다. 즉, 요청이 더 낮은 모델로 fallback되거나 제한될 때 사용자는 자신이 어떤 처리 경로에 놓였는지 알 수 있다. 저자는 이러한 방식이 불만을 낳을 수는 있어도, 투명성을 갖춘 안전 정책으로는 논리적으로 방어 가능하다고 본다.

6. 보이지 않는 frontier LLM 개발 제한

저자가 가장 강하게 문제 삼는 부분은 Claude Fable 5와 Claude Mythos 5 시스템 카드에 등장하는 frontier LLM 개발 관련 safeguard다. Anthropic은 강력한 AI 시스템을 만드는 다른 개발자들을 가속하는 위험을 우려하며, pretraining pipeline, 분산 학습 인프라, ML accelerator 설계 같은 frontier LLM 개발 요청에 대해 Claude의 효과를 제한하는 조치를 구현했다고 설명한다. 그러나 이 조치는 사이버보안, 생물·화학, 증류 시도에 대한 개입과 달리 사용자에게 보이지 않는다. fallback도 없고, 대신 prompt modification, steering vector, PEFT 같은 방식으로 모델이나 입력을 조정해 효과를 낮춘다고 되어 있다. 저자는 바로 이 비가시성이 신뢰를 훼손한다고 본다.

7. 신뢰 훼손과 ‘안전’ 명분에 대한 비판

저자는 사용자가 모르는 사이 모델의 지능이 낮아지는 것은 범주적으로 misaligned AI라고 표현한다. 모델이 어떤 사용을 안전하지 않다고 판단해 조용히 workplace를 조작하는 다음 단계까지도 상상할 수 있다고 말하며, Anthropic이 실제로 그랬다는 주장은 아니지만 현재 조치가 그런 방향의 선상에 있다고 경고한다. 그는 frontier AI 연구 요청에만 비공개 조작을 적용하고, 다른 위험 영역에는 공개 fallback을 적용하는 이중성이 매우 혼란스럽다고 본다. 이런 불일치는 안전 정책 전체의 진정성에 의문을 만들며, 해당 조치가 안전보다 경쟁 지위 유지에 더 가깝게 보이도록 만든다. 저자는 모든 안전 정책이 동일한 형태를 취했다면 훨씬 더 설득력 있고 지적으로 지지하기 쉬웠을 것이라고 말한다.

8. 증류, reasoning trace, 그리고 투명성 요구

글은 Anthropic이 특히 중국 행위자의 distillation attack에 대해 공개적으로 우려해 왔다고 설명한다. 다만 저자는 Anthropic의 주장이 사실관계나 왜 그런 행동을 막기 어려운지에 대한 맥락을 충분히 투명하게 제공하지 않아 완전히 믿기 어렵다고 말한다. 그는 API 제공자들이 해킹이나 jailbreak를 쉽게 막지 못하는 이유가 reasoning model이 reasoning trace를 출력하려는 깊은 성질에 있을 수 있다고 가정한다. 또 reasoning trace가 downstream model의 행동을 형성하는 데 비대칭적으로 효과적이며, 선도 연구소들이 이런 jailbreak pipeline을 막기 위해 열심히 노력한다고 본다. 만약 지식재산을 완전히 보호하려면 모델 회사들이 경제적 위치를 약화시켜야 하는 상황이라면, Anthropic은 더 투명하게 설명할 때 연구 커뮤니티의 공감을 얻을 수 있다고 주장한다.

9. 안전 연구는 회사 혼자 정할 수 없다는 결론

저자는 이러한 safeguard를 Anthropic이 혼자 구축해서는 안 된다고 말한다. 안전 연구는 특정 기업 내부의 판단만으로 설계될 것이 아니라, 연구소와 공적 연구 노력 전반의 공통 이해와 정보 공유를 바탕으로 만들어져야 한다는 것이다. 그는 만약 정확한 안전 절차가 회사의 최우선이자 리더십의 비협상 원칙이라면, frontier AI training이라는 핵심 영역에 불명확하게 구현된 안전 필터를 넣은 채 모델을 출시하지 않았을 것이라고 비판한다. 특히 왜 AI 연구 요청을 downgrade하는 classifier를 투명하게 두지 않았는지 묻는다. 마지막으로 그는 자신이 사회적으로 강력한 AI 전환이 잘 이루어지도록 모델을 만드는 일을 해왔음에도, 이제 세계 최고의 AI 모델을 자신의 전문 영역에서 신뢰할 수 없게 되었다고 말한다.

🧾 핵심 주장 / 시사점

이 글의 핵심은 ‘강한 모델일수록 더 강한 안전 장치가 필요하다’가 아니라, 그 안전 장치가 투명하게 적용되는지 여부가 모델 신뢰의 핵심이라는 점이다.
Anthropic의 정책은 일부 위험 영역에서는 사용자 고지를 제공하지만 frontier AI 개발 영역에서는 보이지 않는 성능 제한을 적용해, 안전과 경쟁 방어 사이의 경계를 흐리게 만든다.
저자는 frontier AI 안전이 개별 기업의 폐쇄적 통제보다 공동 이해, 공개적 근거, 일관된 정책 설계 위에서 다뤄져야 한다고 본다.