We Tested the Best AI Model…It Got Banned
Quick Summary
Best AI Model이라는 기대를 받은 Fable 5는 3D 앱·게임·리서치 덱 생성에서 큰 도약을 보였지만, 안전 제한·느린 속도·도구 사용 한계 때문에 “It Got Banned”에 가까운 리스크도 함께 드러낸 모델이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Best AI Model이라는 기대를 받은 Fable 5는 3D 앱·게임·리서치 덱 생성에서 큰 도약을 보였지만, 안전 제한·느린 속도·도구 사용 한계 때문에 “It Got Banned”에 가까운 리스크도 함께 드러낸 모델이다.
📌 핵심 요점
- Fable 5는 사이버보안·생물학 악용 우려 때문에 출시 전후로 민감 영역 사용 제한이 있었고, 단순 벤치마크보다 실제 제작 과제에서의 성능 검증이 핵심 쟁점으로 제시됐다.
- 3D 게이밍 PC 빌더 과제에서는 부품 선택, 호환성 게이팅, 케이스 조립, 비용 표시, 구매 흐름까지 갖춘 결과물이 나오며 기존 Gemini·GPT 계열 결과보다 높은 완성도로 평가됐다.
- Dota 유사 게임 생성에서는 영웅, 스킬, 아이템, 상점, 미니맵, 타워, 크립, 사망 규칙 등 복잡한 게임 로직이 실제 플레이 가능한 수준으로 구현됐지만, 생성 속도와 토큰 사용량은 큰 병목으로 남았다.
- Mumbai local 시뮬레이터, 영화 속 장난감 웹사이트, 모바일 3D 크리켓 게임처럼 다양한 앱·게임·웹 경험을 원샷에 가깝게 만들며 제작 범위가 넓어졌다는 점이 반복적으로 확인됐다.
- Indian creator economy 리서치 덱은 데이터와 인사이트를 포함한 지식 노동 자동화 가능성을 보여줬지만, 영상 내 언급된 수치와 Stripe 사례 등은 외부 검증이 필요한 주장으로 분리해 봐야 한다.
🧩 배경과 문제 정의
- 영상은 Anthropic의 Mythos/Fable 5가 단순히 벤치마크에서 높은 점수를 받은 모델인지, 실제 제작 환경에서도 기존 모델 대비 뚜렷한 도약을 보이는지 확인하는 데 초점을 둔다.
- Fable 5는 출시 전부터 사이버보안과 생물학 악용 가능성 때문에 우려가 제기된 모델로 소개되며, 실제 사용에서도 민감한 영역에서는 제한이 걸리는 것으로 설명된다.
- 따라서 검증의 핵심은 “가장 똑똑한 모델인가”가 아니라, 3D 앱 제작, 복잡한 게임 구현, 장기 문맥 유지, 도구 사용, 속도 병목 같은 실제 작업 흐름에서 얼마나 쓸모 있는지에 놓인다.
- 영상은 3D PC 빌더, Dota 2 유사 게임, 도시철도 시뮬레이션, 모바일 크리켓 게임, 리서치 덱 생성 같은 과제를 통해 모델의 제작 능력과 한계를 단계적으로 확인한다.
- 결론적으로 소프트웨어 개발자는 모델과 직접 경쟁하는 위치보다, 모델을 팀원이나 도구처럼 활용해 제품·마케팅·분배·고객 문제까지 결합하는 위치로 이동할 가능성이 크다는 문제의식을 제시한다.
- 검증 필요: 영상에서 제시되는 시장 규모, 성장률, creator economy 관련 수치는 영상 내 산출물 기준으로 정리한 것이며, 외부 원자료와의 대조 검증은 별도로 필요하다.
🕒 시간순 섹션별 상세정리
1. Fable 5의 위험 제한과 실사용 검증 기준
- Anthropic의 Mythos는 Fable 5라는 이름으로 공개됐고, 출시 전부터 사이버보안 위험 때문에 내부 우려가 컸던 모델로 묶인다 [00:34]
- 공개 이후에도 모델은 특정 민감 영역에서 사용성이 제한되며, 특히 사이버보안과 생물학처럼 악용 가능성이 큰 분야에서는 제약이 남아 있는 것으로 드러난다 [00:49]
- 생물학 질문의 경우 일부 답변을 시작한 뒤 문제가 생기는 식의 제한이 나타나며, 이는 모델이 강력해질수록 안전장치와 실사용성 사이의 긴장이 커진다는 배경을 만든다 [01:04]
2. 3D PC 빌더에서 드러난 앱 제작 완성도
- 진행자는 과거 Gemini로 만들었던 3D 게이밍 PC 빌더와 같은 계열의 과제를 Fable 5에 적용해, 동일한 프롬프트 조건에서 결과가 얼마나 개선되는지 확인한다 [01:28]
- 이 비교는 추상적 벤치마크가 아니라 실제 앱을 만들어 보면서 모델의 구현력, 인터랙션 구성 능력, 시각적 완성도를 평가하려는 방식이다 [01:43]
- Fable 5 결과물은 GPU가 케이스 안으로 들어가는 장면, 부품 제거, 케이스 드래그로 빌드 시작 같은 상호작용을 갖추며 이전 결과보다 확실히 개선된 모습을 보인다 [01:56]
- 단순한 정적 화면이 아니라 사용자가 부품을 다루고 조립 흐름을 진행할 수 있는 형태로 구성되면서, 모델의 앱 제작 능력이 체감 가능한 수준으로 드러난다 [02:11]
3. 실제 3D 자산과 기존 모델 대비 격차
- 스케치 버전과 별도로 실제 자산이 들어간 버전이 나타나며, 표면에 단순히 질감을 입힌 정도가 아니라 실제 폴리곤처럼 보이는 구조가 관찰된다 [03:00]
- 진행자는 이 결과를 보며 모델이 3D 모델을 직접 생성한 것인지, 또는 어떤 방식으로 자산을 구성·변환한 것인지에 대한 의문을 제기한다 [03:15]
- 폭발도 보기에서도 부품 표현과 공간 구성이 잘 유지되며, 내부 부품들이 분리되어 보이는 장면에서도 형태와 배치가 비교적 자연스럽게 유지된다 [03:35]
- Gemini와 GPT 결과와 비교했을 때 Fable 5의 결과물은 훨씬 높은 품질로 평가되며, 특히 3D 앱의 시각적 완성도와 상호작용 측면에서 격차가 중요하다 [03:50]
4. Dota 2 클론 과제로 드러난 복잡도와 도구 사용 한계
- Fable 5가 예상보다 뛰어난 3D PC 빌더 결과를 내자, 진행자는 새 채팅에서 “작동하는 3D Dota 2 클론”을 만들라는 짧은 프롬프트를 입력한다 [04:36]
- 과제에는 캐릭터와 아이템까지 완성하라는 조건이 포함되며, 단순한 화면 모사보다 훨씬 복잡한 게임 시스템 구현을 요구하는 방향으로 난도가 올라간다 [04:51]
- Dota 2는 변수와 상호작용 요소가 매우 많은 복잡한 게임으로 간주되며, 영웅, 아이템, 전투, 적대 객체, 맵 구성 등이 얽혀 있어 단순한 웹앱 과제와 다르다 [05:18]
- 진행자는 한두 줄 프롬프트만으로 이런 게임이 구현된다면, Fable 5의 게임 제작 능력을 보여주는 강한 신호가 될 수 있다고 본다 [05:33]
5. 느린 응답과 장기 문맥 처리 방식
- 열린 과제에서 모델은 컨텍스트 창 안에 들어갈 만큼 작은 덩어리를 잡고 결과물을 만들려는 방식으로 접근하는 것으로 드러난다 [06:45]
- 긴 맥락을 다루는 코딩 작업에서는 단독 채팅보다 Cursor나 IDE 안에서 모델을 사용하는 방식이 더 적합하다는 판단이 드러난다 [07:00]
- Dota 클론 생성이 오래 걸리면서 Fable 5의 큰 병목은 속도라는 점이 드러난다 [07:25]
- 각 쿼리마다 상당한 기다림이 필요하다는 사용 경험이 반복되며, 모델의 품질이 좋아도 응답 속도가 실제 작업 흐름의 제약이 될 수 있음을 보여준다 [07:40]
6. 소프트웨어 커리어 리스크와 Dota 클론 실제 결과
- 진행자는 AI 도구 발전 속도를 2~3년 더 외삽하면 소프트웨어 직업의 경쟁 조건이 크게 바뀔 수 있다고 드러낸다 [09:17]
- 특히 수백만 줄 코드베이스를 다루는 모델과 인간 개발자가 정면으로 경쟁하려는 선택은 위험해질 수 있다는 관점이 드러난다 [09:32]
- 계산기와 경쟁하지 않고 계산기를 사용하는 것처럼, 창업자나 개발자는 Fable 5 같은 모델을 경쟁자가 아니라 팀원처럼 활용해 앱을 만들 수 있다는 비유가 나온다 [09:39]
- 동시에 마케팅, 분배, 팀 빌딩, 고객지원, 제품 문제 정의처럼 모델만으로 해결되지 않는 영역은 여전히 인간의 가치가 남는 영역으로 압축된다 [09:54]
7. Dota 유사 게임에서 전투·아이템·미니맵 로직이 작동한다
- 생성된 Dota 유사 게임에서는 캐릭터가 화염 계열 스킬을 사용하고, 적 영웅과 정글 크립이 등장하는 등 MOBA식 전투 환경이 구성된다 [12:01]
- 이는 단순한 3D 장면 생성이 아니라, 플레이어 캐릭터와 적대 객체, 스킬 사용, 전투 상황이 함께 작동하는 게임 상태를 만든 결과로 평가된다 [12:16]
- 상점에서 브레이서를 구매하자 아이템이 인벤토리에 들어가고, HP 170 증가와 초당 회복 수치가 체력 표시와 연결된다 [12:31]
- 아이템 구매가 화면 표시로만 끝나지 않고 게임 상태에 반영되면서, 상점·인벤토리·스탯 변화가 하나의 로직으로 묶여 있음을 보여준다 [12:46]
8. 핵심 게임 시스템이 갖춰지고 그래픽만 보완 과제로 남는다
- 상점 재구매와 탱고 아이템 사용이 가능해지며, 회복 아이템을 사용하는 기본 흐름도 구현된 것으로 확인된다 [13:34]
- 다만 트리 대상 지정까지는 구현되지 않아, Dota의 세부 규칙 전체가 완벽하게 재현된 것은 아니라는 한계가 남는다 [13:49]
- 현재 수준은 스틱 피겨 형태의 Dota 게임에 가깝지만, 스킬, 상점, 아이템, 적 영웅, 타워, 사망 규칙이 함께 묶여 작동한다는 점이 중요하다 [14:00]
- 진행자는 그래픽 완성도만 보완된다면 몇 년 뒤에는 훨씬 더 높은 수준의 게임 제작이 가능해질 수 있다고 보며, 이 결과를 발전 가능성의 신호로 해석한다 [14:15]
9. 도시철도 시뮬레이션과 영화 속 장난감 웹사이트가 한 번에 구성된다
- Mumbai local network simulator는 철도 네트워크를 만들고 실시간 데이터를 맵에 배치하는 방식으로 구성된다 [14:52]
- 결과물은 시간당 이동 인원, 중단된 열차, 평균 지연, 운행 열차 수 같은 운영 지표를 보여주며, 단순 지도보다 시뮬레이션 대시보드에 가까운 형태를 갖춘다 [15:07]
- Churchgate 역을 클릭하자 3D 시각화와 플랫폼 안내 방송이 이어지며, 역 환경과 정보 전달이 결합된 장면이 나타난다 [15:22]
- 진행자는 거의 노력 없이 한 번에 나온 결과물임에도 역 환경, 데이터 표시, 안내 요소가 함께 구성된 점을 인상적으로 본다 [15:37]
10. 모바일 3D 크리켓 게임까지 작동하며 원샷 제작 범위가 넓어진다
- Stick Cricket 3D는 휴대폰에서 실행되는 형태로 만들어지고, 화면 회전 안내부터 게임 시작 흐름까지 포함한다 [17:29]
- 팀 선택, 상대 선택, 5오버 경기 설정이 이어지며, 모바일 게임으로서 필요한 초기 설정 단계가 구성된다 [17:44]
- 게임은 좌우 탭 조작과 그린존 타이밍 규칙을 제시하며, 사용자가 타격 타이밍을 맞추는 방식으로 플레이가 진행된다 [17:55]
- 24점 목표 상황에서 스윙 실패, 오프사이드 타격, 블록, 볼드아웃 같은 결과가 이어지며, 단순 UI가 아니라 경기 규칙에 따른 플레이 흐름이 작동한다 [18:10]
11. 리서치 덱 자동 생성이 지식 노동의 역할 변화를 드러낸다
- Indian creator economy 리포트는 Indus Valley Report와 유사한 스타일의 전체 슬라이드 덱으로 생성된다 [19:20]
- 진행자는 데이터와 인사이트가 상당히 정확해 보인다고 평가하며, 이런 수준이라면 리서치 인턴의 필요성이 줄어드는 상황을 떠올릴 수 있다고 본다 [19:35]
- 덱에는 인도 active creators 400만~440만 명, 의미 있는 수익화 비율 12%, 2025년 인플루언서 마케팅 3,000억~3,500억 루피, 22% 성장률과 5,000억 루피 전망이 포함된다 [20:12]
- 검증 필요: 위 수치들은 영상 속 생성 결과에 포함된 내용으로 정리한 것이며, 실제 시장 데이터로 단정하려면 외부 원자료 확인이 필요하다 [20:27]
- 검증 필요: 제공된 section-detail에는 20:12 이후의 결론·마무리 발화가 포함되어 있지 않으므로, 영상 전체 길이 22:58 기준 후반부의 추가 논지는 원 transcript로 별도 확인이 필요하다 [22:53]
🧾 결론
- Fable 5의 핵심 인상은 “코드를 조금 생성하는 모델”을 넘어, 앱·게임·시뮬레이션·리서치 덱까지 한 번에 구성하는 제작형 모델에 가까워졌다는 점이다.
- 다만 성능 향상은 무제한 사용 가능성을 뜻하지 않는다. 민감 영역 제한, 도구 사용 약점, 긴 대기 시간, 높은 토큰 소모가 실제 활용성을 제약한다.
- 영상에서 가장 설득력 있는 부분은 벤치마크 점수가 아니라, 3D PC 빌더와 Dota 유사 게임처럼 복잡한 인터랙션이 있는 결과물을 직접 비교한 실사용 장면이다.
- 소프트웨어 개발자는 모델과 직접 경쟁하기보다, 모델을 활용해 더 빠르게 제품을 만들고 검증하는 방향으로 역할이 이동할 가능성이 크다.
- 검증 필요: Stripe의 5천만 줄 Ruby 코드베이스 처리 사례, Indian creator economy 덱의 수치, 6월 22일 이후 기능 중단 가능성은 영상 내 언급 기준이며 별도 확인이 필요하다.
📈 투자·시사 포인트
- AI 모델 경쟁의 판단 기준은 단순 텍스트 품질이나 벤치마크에서, 실제 앱·게임·리서치 산출물을 얼마나 완성도 있게 만들 수 있는지로 이동하고 있다.
- 모델 자체보다도 3D 엔진, 오디오 생성기, 이미지 생성기, 배포·구매 흐름과 연결되는 도구 생태계가 더 큰 레버리지 포인트가 될 수 있다.
- 지식 노동 영역에서는 리서치 인턴, 초안 작성, 슬라이드 덱 제작처럼 반복적 분석·정리 업무가 먼저 자동화 압력을 받을 가능성이 높다.
- 게임·인터랙티브 콘텐츠 제작에서는 그래픽 품질보다 규칙·상태·상호작용 로직을 빠르게 구현하는 능력이 초기 프로토타이핑 비용을 크게 낮출 수 있다.
- 투자 관점에서는 “모델 성능”뿐 아니라 속도, 사용 한도, 안전 제한, 외부 도구 연동성까지 함께 봐야 실제 제품화 가능성을 판단할 수 있다.
⚠️ 불확실하거나 확인이 필요한 부분
- Stripe의 “5천만 줄 Ruby 코드베이스에서 두 달치 엔지니어링을 며칠로 압축했다”는 사례는 영상 내 보고로 제시된 것이며, 독립 출처나 실제 적용 범위 검증이 필요하다.
- 3D PC 빌더의 자산이 모델이 직접 생성한 것인지, 기존 에셋을 불러오거나 변환한 것인지는 명확하지 않다.
- Dota 유사 게임, 도시철도 시뮬레이터, 모바일 크리켓 게임은 데모상 작동 흐름이 보이지만 코드 품질, 재현성, 유지보수성, 확장 가능성은 별도로 확인해야 한다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- Fable 5의 출시명, 제한 정책, 사이버보안·생물학 관련 사용 제한을 공식 Anthropic 자료로 확인한다.
- 동일하거나 유사한 프롬프트로 GPT, Gemini, Fable 5 결과물을 비교하고 상호작용성·완성도·재현성을 기준화한다.
- 3D PC 빌더 결과물의 코드와 에셋 출처를 확인해 실제 생성 능력인지, 라이브러리·외부 자산 조합인지 구분한다.
- 대규모 기존 코드베이스 처리 능력은 Stripe 사례만 인용하지 말고 자체 코드베이스 또는 공개 프로젝트로 작은 파일럿을 돌려본다.
❓ 열린 질문
- Fable 5가 보여준 3D 앱 품질은 모델 자체의 공간·코딩 능력 때문인가, 아니면 외부 자산과 프레임워크 활용이 큰 비중을 차지한 것인가?
- Stripe식 대규모 코드베이스 생산성 향상이 다른 언어, 프레임워크, 레거시 프로젝트에서도 재현될 수 있는가?
- tool use 약점이 Unreal, IDE, 장기 에이전트 작업 같은 실무 환경에서 어느 정도 병목으로 작용하는가?