We Tested Anthropic''s Fable 5 for a Week
Quick Summary
Anthropic’s Fable 5는 짧은 답변용 모델이라기보다, 큰 과제를 오래 맡겼을 때 가치가 드러나는 고비용·고성능 워프 드라이브형 AI로 평가된다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Anthropic’s Fable 5는 짧은 답변용 모델이라기보다, 큰 과제를 오래 맡겼을 때 가치가 드러나는 고비용·고성능 워프 드라이브형 AI로 평가된다.
📌 핵심 요점
- Fable 5는 한 번의 프롬프트로 보르헤스의 「바벨의 도서관」을 3D 브라우저 게임으로 구현하며, 장시간 자율 실행 능력을 보여줬다.
- 영상은 Fable 5를 Anthropic의 Mythos급 대형 모델로 설명하며, 강력한 성능과 함께 사이버·생물학 관련 안전장치가 출시의 핵심 조건이었다고 전한다.
- 시니어 엔지니어 벤치마크에서는 Fable이 91점을 기록해 기존 상위 모델보다 큰 격차를 냈다는 주장이 제시된다.
- Fable 5의 강점은 짧은 질의응답보다 3~4시간 이상 걸리는 큰 작업, 예컨대 복잡한 코드베이스 처리, 강의 미니사이트 제작, 데이터 분석, 백로그 정리에 있다.
- 실사용 가치는 사용자의 문제 크기와 AI 워크플로 숙련도에 따라 크게 갈리며, 다중 에이전트나 큰 기술 과제를 다루는 사용자에게 특히 효용이 커진다.
🧩 배경과 문제 정의
- Fable 5는 Anthropic의 Mythos급 대형 모델로 소개되며, 출시 전부터 위험성과 안전장치가 중요한 논점이었다.
- 이 영상의 핵심 문제는 Fable 5가 단순히 인상적인 데모를 만드는 수준을 넘어, 실제 업무 흐름 안에서 얼마나 현실적으로 활용될 수 있는지다.
- 평가 대상은 짧은 질의응답 능력보다 장시간 자율 실행 능력에 가깝다. 한 번의 프롬프트로 3D 게임, 강의 미니사이트, 데이터 분석, 코드 이슈 처리 같은 큰 과제를 어디까지 수행하는지가 중심이다.
- 비용, 속도, 토큰 사용량이 큰 모델이기 때문에 일상적인 간단한 질문보다는 복잡하고 규모가 큰 업무를 맡길 때 가치가 커진다는 전제가 깔려 있다.
- 사용자는 Fable 5를 둘러싼 흥분과 불안 사이에서, 과장된 공포나 기대보다 실제 문제 규모와 자신의 AI 워크플로 숙련도에 맞춰 활용 범위를 판단해야 한다.
- 검증이 필요한 내용: 벤치마크 점수, Anthropic 내부의 위험 판단, 모델의 정확한 등급과 출시 맥락은 영상 내 설명 기준으로 정리된 것이며, 독립적인 외부 검증은 별도로 필요하다.
🕒 시간순 섹션별 상세정리
1. 단일 프롬프트가 만든 바벨의 도서관 데모
- 영상은 보르헤스의 「바벨의 도서관」을 바탕으로 만든 브라우저용 3D 공간 데모에서 시작한다 [00:25]
- 바벨의 도서관은 모든 책이 문자열이라는 전제에서 출발하며, 사용자는 책갈피, 계단, 상하 공간을 탐색할 수 있는 구조 안에서 움직인다 [00:40]
- Fable 5는 「바벨의 도서관」을 읽고 브라우저에서 플레이 가능한 3D 게임을 끝까지 만들라는 단 한 번의 프롬프트만으로 결과물을 만들었다고 묶인다 [00:55]
- 이 데모는 Fable 5의 핵심 평가 지점이 단순 답변 능력이 아니라, 모호하고 큰 창작 과제를 실제 작동하는 결과물로 완성하는 능력임을 보여준다 [01:10]
2. 출시 맥락과 Mythos 모델의 안전장치
- Every는 AI 모델을 실제 업무에 적용해보며 프로그래밍, 글쓰기, 디자인, 사업 구축, 의사결정에서 무엇이 작동하고 실패하는지 검증하는 조직이라고 자신들의 관점을 보여준다 [01:31]
- Fable 5는 Mythos급 모델로 소개되며, 공개 전부터 강력한 성능과 위험성에 대한 기대와 불안이 동시에 형성된 상태였다 [01:58]
- 영상은 Fable 5를 단순한 신제품 리뷰 대상으로 보지 않고, 실제 업무 현장에서 어떤 종류의 일을 바꿀 수 있는지 확인해야 할 대상으로 다룬다 [02:13]
- 특히 출시 전 안전장치와 위험성 논의가 있었기 때문에, 모델의 성능뿐 아니라 어느 범위까지 맡길 수 있는지도 중요한 질문으로 제기된다 [02:28]
3. 시니어 엔지니어 벤치마크에서 벌어진 성능 격차
- 시니어 엔지니어 벤치마크는 실제 프로덕션 코드베이스를 첫 원칙부터 다시 설계하게 하며, 모델이 인간 시니어 엔지니어처럼 판단하는지를 100점 만점으로 평가한다 [03:17]
- 이 벤치마크는 단순 코딩 문제 풀이가 아니라, 구조적 판단과 설계 능력, 실제 코드베이스 이해력을 함께 보는 과제로 드러난다 [03:32]
- 기존 최고 점수는 Opus 4.8의 63점, GPT 5.5의 62점이었지만 Fable은 한 번의 프롬프트로 91점을 기록했다고 묶인다 [03:34]
- 영상은 이 점수 차이를 통해 Fable 5가 특정 복잡한 엔지니어링 과제에서 인간 시니어 엔지니어 수준에 가까운 판단을 보여줬다고 해석한다 [03:49]
- 다만 이 성능 주장은 영상 내 벤치마크 설명에 근거한 것이므로, 벤치마크 설계와 평가 기준에 대한 별도 검증이 필요하다 [04:04]
4. 장시간 자율 실행에 강한 워프 드라이브형 사용법
- Fable의 강점은 짧은 응답보다 지속적인 자율 실행에서 두드러진다고 드러난다 [04:24]
- 큰 과제를 주고 3~4시간 또는 밤새 실행하게 두면, 모델이 스스로 문제를 풀고 결과물을 만들어내는 방식이 효과적이라고 평가된다 [04:39]
- 이는 사용자가 계속 세부 지시를 내려야 하는 도구라기보다, 큰 목표를 맡기고 장시간 처리하게 하는 “워프 드라이브”형 사용법에 가깝다 [04:54]
- Fable은 디테일과 취향 판단이 개선되어, 모호한 프롬프트에서도 작은 설계 요소를 챙기는 모습을 보인다고 드러난다 [05:09]
- 이전 Claude 모델처럼 과하게 장식적인 결과로 치우치는 일이 줄어들고, 결과물의 균형감과 실용성이 나아졌다는 평가가 드러난다 [05:24]
5. 드레퓌스 강의 미니사이트에서 드러난 취향과 세부 구현
- Hubert Dreyfus의 Heidegger 강의는 오래된 오디오라 그대로 듣기 어렵고 따라가기 힘든 자료로 묶인다 [07:09]
- Fable은 별도 링크 없이 강의를 찾아와, 사용자가 더 쉽게 소비할 수 있는 미니사이트 형태로 바꿨다고 드러난다 [07:24]
- 이 미니사이트에는 강의 요약, 강의가 중요한 이유, 목차가 포함되어 학습자가 전체 구조를 먼저 이해할 수 있게 구성됐다 [07:43]
- 플레이어는 오디오를 재생하면서 현재 말하는 문장을 텍스트에서 동시에 하이라이트해, 오래된 오디오 강의를 따라가기 쉽게 만든다 [07:58]
- 이 사례는 Fable이 단순히 자료를 요약하는 데 그치지 않고, 사용 경험을 고려한 인터페이스와 세부 기능까지 구현할 수 있음을 보여주는 예시로 드러난다 [08:13]
6. 조사·분석·백로그 처리에서 보이는 업무 적용 범위
- Every의 구독자 설문 데이터 분석 사례에서는 수백~수천 개 응답을 바탕으로 핵심 병목을 빠르게 찾아내는 능력이 중요하다 [09:31]
- Fable은 무료 이용자가 유료 이용자로 전환되지 않는 문제가 중요한 병목이라는 결론을 도출했다고 드러난다 [09:46]
- 단순한 요약을 넘어서, 가격 투명성과 체험판 제안을 실행하면 전환율이 오를 것이라는 검증 가능한 가설까지 제시했다 [09:51]
- 영상은 이 판단이 성장 담당자가 많은 시간과 리서치를 들여 도달할 만한 수준의 분석에 가깝다고 평가한다 [10:06]
- 이 사례를 통해 Fable의 적용 범위는 창작이나 코딩뿐 아니라, 조사, 데이터 분석, 제품 개선 아이디어 도출, 백로그 처리 같은 지식노동 전반으로 확장된다 [10:21]
7. 숙련도와 문제 규모에 따라 갈리는 실사용 가치
- 내부 테스트에는 프로그래머, 작가, 편집자, 마케터 등 약 7명이 참여했고, Fable에 대한 반응은 크게 갈렸다고 드러난다 [12:00]
- 만족도는 모델 자체의 성능만이 아니라 사용자가 가진 문제의 크기와 AI 워크플로 숙련도에 따라 달라졌다 [12:15]
- 다중 에이전트를 조율하거나 큰 기술 문제를 다루는 사용자는 속도와 처리량의 차이를 크게 체감한다 [12:29]
- 반대로 그런 수준의 큰 작업이나 복잡한 워크플로가 없는 사용자에게는 Fable의 용도를 찾기 어려울 수 있다 [12:44]
- 따라서 Fable 5는 모든 사람에게 즉시 같은 가치를 주는 범용 도구라기보다, 큰 문제를 정의하고 장시간 실행을 맡길 수 있는 사용자에게 특히 유리한 도구로 압축된다 [12:59]
8. 자동화 이후의 일과 Fable이 여는 능력 격차 변화
- Fable의 의미는 모든 일을 즉시 대체하는 충격이라기보다, 자동화 이후에도 인간에게 새롭게 해야 할 일이 더 많이 생기는 역설에 가깝다고 드러난다 [14:34]
- 자동화된 환경에서도 무엇을 만들지, 어떤 문제를 맡길지, 결과를 어떻게 판단하고 다음 실행으로 연결할지 같은 인간의 판단은 계속 중요해진다 [14:49]
- 비전문가는 한 번에 비디오게임을 만드는 수준까지 진입선이 올라가며, 이전보다 훨씬 큰 결과물을 시도할 수 있게 된다 [14:59]
- 전문가는 혼자서도 AAA급 게임에 가까운 결과물을 노릴 수 있을 만큼 능력의 상한이 높아진다고 압축된다 [15:14]
- 영상의 마무리 논지는 Fable 5가 단순히 작업을 줄이는 도구가 아니라, 사용자의 문제 정의 능력과 워크플로 숙련도에 따라 개인의 생산 가능 범위를 크게 넓히는 모델이라는 데 있다 [15:29]
🧾 결론
- Fable 5는 “더 똑똑한 챗봇”이라기보다, 큰 목표를 주고 오래 실행시키는 방식에서 진가가 드러나는 모델로 요약된다.
- 비용과 속도, 토큰 사용량이 크기 때문에 일상적인 검색 대체나 짧은 문답에는 과한 선택일 수 있다.
- 영상 속 사례들은 Fable 5가 단순 생성보다 기획, 구현, 점검, 정리까지 이어지는 복합 작업에서 더 큰 생산성 변화를 만들 수 있음을 보여준다.
- 다만 글쓰기 영역에서는 Opus 4.8 대비 뚜렷한 우위가 제한적으로 보였고, 문장 생산보다 고위험·고복잡도 작업에서 신뢰도가 더 강조된다.
- 검증 필요: 영상에 제시된 벤치마크 점수, 가격, “6개월~1년 안에 유사 능력이 더 저렴해질 가능성”은 영상 내 주장으로 이해해야 하며 외부 자료 확인이 필요하다.
📈 투자·시사 포인트
- 고성능 AI 모델의 경쟁축은 짧은 응답 품질에서 장시간 자율 실행, 복잡한 업무 처리, 실제 결과물 완성도로 이동하고 있다.
- 모델 비용이 높더라도 인간 전문가의 수시간~수일짜리 업무를 압축할 수 있다면, 고부가가치 업무에서는 ROI가 성립할 가능성이 있다.
- 기업과 개인의 생산성 격차는 단순히 모델 접근권보다 “큰 문제를 정의하고, 에이전트에게 위임하고, 결과를 검증하는 능력”에서 더 크게 벌어질 수 있다.
- 비전문가에게는 진입 장벽을 낮추고, 전문가에게는 혼자 수행할 수 있는 작업의 상한을 높이는 방향으로 역량 분포가 재편될 수 있다.
- 검증 필요: Fable 5의 벤치마크 우위가 실제 다양한 산업 환경에서도 반복되는지, 그리고 높은 토큰 비용을 상쇄할 만큼 지속적인 생산성 개선이 나오는지는 추가 사례가 필요하다.
⚠️ 불확실하거나 확인이 필요한 부분
- 영상에서 언급된 Fable 5, Mythos급 모델, 가격 정책, 안전장치 수준은 영상 내 설명에 근거한 내용이며, Anthropic의 공식 문서나 공개 가격표로 별도 확인이 필요하다.
- 시니어 엔지니어 벤치마크에서 Fable이 91점을 기록했다는 결과는 인상적이지만, 평가 기준, 테스트 코드베이스, 채점 방식, 반복 재현성은 영상만으로는 검증되지 않습니다.
- 바벨의 도서관 3D 게임, 드레퓌스 강의 미니사이트, GitHub 이슈 처리 사례는 데모 또는 내부 테스트 사례로 제시되었으며, 동일 조건에서 다른 사용자도 같은 품질을 얻을 수 있는지는 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- Fable 5를 실제 업무에 도입하기 전에 공식 모델명, 가격, 사용 제한, 안전 정책을 Anthropic 자료로 확인한다.
- 짧은 질의나 일반 검색 대체 용도가 아니라, 장시간 자율 실행이 필요한 대형 과제 후보를 먼저 선별한다.
- 코드 리팩터링, 데이터 분석, 백로그 정리, 인터랙티브 콘텐츠 제작처럼 영상에서 강점으로 제시된 작업을 내부 파일럿 과제로 테스트한다.
- 각 파일럿마다 비용 한도, 실행 시간, 허용 가능한 토큰 사용량, 중간 점검 기준을 미리 정한다.
❓ 열린 질문
- Fable 5의 높은 비용을 정당화할 만큼 큰 문제는 우리 업무 안에서 무엇인가?
- 장시간 자율 실행 중 모델이 잘못된 방향으로 진행할 때, 어느 시점에 사람이 개입해야 가장 효율적인가?
- 영상의 벤치마크 성과가 실제 프로덕션 코드베이스에서도 안정적으로 재현될 수 있는가?