We Tested the Best AI Model…It Got Banned

🖼️ 인포그래픽

We Tested the Best AI Model…It Got Banned 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Best AI Model이라는 기대를 받은 Fable 5는 3D 앱·게임·리서치 덱 생성에서 큰 도약을 보였지만, 안전 제한·느린 속도·도구 사용 한계 때문에 “It Got Banned”에 가까운 리스크도 함께 드러낸 모델이다.

📌 핵심 요점

Fable 5는 사이버보안·생물학 악용 우려 때문에 출시 전후로 민감 영역 사용 제한이 있었고, 단순 벤치마크보다 실제 제작 과제에서의 성능 검증이 핵심 쟁점으로 제시됐다.
3D 게이밍 PC 빌더 과제에서는 부품 선택, 호환성 게이팅, 케이스 조립, 비용 표시, 구매 흐름까지 갖춘 결과물이 나오며 기존 Gemini·GPT 계열 결과보다 높은 완성도로 평가됐다.
Dota 유사 게임 생성에서는 영웅, 스킬, 아이템, 상점, 미니맵, 타워, 크립, 사망 규칙 등 복잡한 게임 로직이 실제 플레이 가능한 수준으로 구현됐지만, 생성 속도와 토큰 사용량은 큰 병목으로 남았다.
Mumbai local 시뮬레이터, 영화 속 장난감 웹사이트, 모바일 3D 크리켓 게임처럼 다양한 앱·게임·웹 경험을 원샷에 가깝게 만들며 제작 범위가 넓어졌다는 점이 반복적으로 확인됐다.
Indian creator economy 리서치 덱은 데이터와 인사이트를 포함한 지식 노동 자동화 가능성을 보여줬지만, 영상 내 언급된 수치와 Stripe 사례 등은 외부 검증이 필요한 주장으로 분리해 봐야 한다.

🧩 배경과 문제 정의

영상은 Anthropic의 Mythos/Fable 5가 단순히 벤치마크에서 높은 점수를 받은 모델인지, 실제 제작 환경에서도 기존 모델 대비 뚜렷한 도약을 보이는지 확인하는 데 초점을 둔다.
Fable 5는 출시 전부터 사이버보안과 생물학 악용 가능성 때문에 우려가 제기된 모델로 소개되며, 실제 사용에서도 민감한 영역에서는 제한이 걸리는 것으로 설명된다.
따라서 검증의 핵심은 “가장 똑똑한 모델인가”가 아니라, 3D 앱 제작, 복잡한 게임 구현, 장기 문맥 유지, 도구 사용, 속도 병목 같은 실제 작업 흐름에서 얼마나 쓸모 있는지에 놓인다.
영상은 3D PC 빌더, Dota 2 유사 게임, 도시철도 시뮬레이션, 모바일 크리켓 게임, 리서치 덱 생성 같은 과제를 통해 모델의 제작 능력과 한계를 단계적으로 확인한다.
결론적으로 소프트웨어 개발자는 모델과 직접 경쟁하는 위치보다, 모델을 팀원이나 도구처럼 활용해 제품·마케팅·분배·고객 문제까지 결합하는 위치로 이동할 가능성이 크다는 문제의식을 제시한다.
검증 필요: 영상에서 제시되는 시장 규모, 성장률, creator economy 관련 수치는 영상 내 산출물 기준으로 정리한 것이며, 외부 원자료와의 대조 검증은 별도로 필요하다.

🕒 시간순 섹션별 상세정리

1. Fable 5의 위험 제한과 실사용 검증 기준

Anthropic의 Mythos는 Fable 5라는 이름으로 공개됐고, 출시 전부터 사이버보안 위험 때문에 내부 우려가 컸던 모델로 묶인다 [00:34]
공개 이후에도 모델은 특정 민감 영역에서 사용성이 제한되며, 특히 사이버보안과 생물학처럼 악용 가능성이 큰 분야에서는 제약이 남아 있는 것으로 드러난다 [00:49]
생물학 질문의 경우 일부 답변을 시작한 뒤 문제가 생기는 식의 제한이 나타나며, 이는 모델이 강력해질수록 안전장치와 실사용성 사이의 긴장이 커진다는 배경을 만든다 [01:04]

2. 3D PC 빌더에서 드러난 앱 제작 완성도

진행자는 과거 Gemini로 만들었던 3D 게이밍 PC 빌더와 같은 계열의 과제를 Fable 5에 적용해, 동일한 프롬프트 조건에서 결과가 얼마나 개선되는지 확인한다 [01:28]
이 비교는 추상적 벤치마크가 아니라 실제 앱을 만들어 보면서 모델의 구현력, 인터랙션 구성 능력, 시각적 완성도를 평가하려는 방식이다 [01:43]
Fable 5 결과물은 GPU가 케이스 안으로 들어가는 장면, 부품 제거, 케이스 드래그로 빌드 시작 같은 상호작용을 갖추며 이전 결과보다 확실히 개선된 모습을 보인다 [01:56]
단순한 정적 화면이 아니라 사용자가 부품을 다루고 조립 흐름을 진행할 수 있는 형태로 구성되면서, 모델의 앱 제작 능력이 체감 가능한 수준으로 드러난다 [02:11]

3. 실제 3D 자산과 기존 모델 대비 격차

스케치 버전과 별도로 실제 자산이 들어간 버전이 나타나며, 표면에 단순히 질감을 입힌 정도가 아니라 실제 폴리곤처럼 보이는 구조가 관찰된다 [03:00]
진행자는 이 결과를 보며 모델이 3D 모델을 직접 생성한 것인지, 또는 어떤 방식으로 자산을 구성·변환한 것인지에 대한 의문을 제기한다 [03:15]
폭발도 보기에서도 부품 표현과 공간 구성이 잘 유지되며, 내부 부품들이 분리되어 보이는 장면에서도 형태와 배치가 비교적 자연스럽게 유지된다 [03:35]
Gemini와 GPT 결과와 비교했을 때 Fable 5의 결과물은 훨씬 높은 품질로 평가되며, 특히 3D 앱의 시각적 완성도와 상호작용 측면에서 격차가 중요하다 [03:50]

4. Dota 2 클론 과제로 드러난 복잡도와 도구 사용 한계

Fable 5가 예상보다 뛰어난 3D PC 빌더 결과를 내자, 진행자는 새 채팅에서 “작동하는 3D Dota 2 클론”을 만들라는 짧은 프롬프트를 입력한다 [04:36]
과제에는 캐릭터와 아이템까지 완성하라는 조건이 포함되며, 단순한 화면 모사보다 훨씬 복잡한 게임 시스템 구현을 요구하는 방향으로 난도가 올라간다 [04:51]
Dota 2는 변수와 상호작용 요소가 매우 많은 복잡한 게임으로 간주되며, 영웅, 아이템, 전투, 적대 객체, 맵 구성 등이 얽혀 있어 단순한 웹앱 과제와 다르다 [05:18]
진행자는 한두 줄 프롬프트만으로 이런 게임이 구현된다면, Fable 5의 게임 제작 능력을 보여주는 강한 신호가 될 수 있다고 본다 [05:33]

5. 느린 응답과 장기 문맥 처리 방식

열린 과제에서 모델은 컨텍스트 창 안에 들어갈 만큼 작은 덩어리를 잡고 결과물을 만들려는 방식으로 접근하는 것으로 드러난다 [06:45]
긴 맥락을 다루는 코딩 작업에서는 단독 채팅보다 Cursor나 IDE 안에서 모델을 사용하는 방식이 더 적합하다는 판단이 드러난다 [07:00]
Dota 클론 생성이 오래 걸리면서 Fable 5의 큰 병목은 속도라는 점이 드러난다 [07:25]
각 쿼리마다 상당한 기다림이 필요하다는 사용 경험이 반복되며, 모델의 품질이 좋아도 응답 속도가 실제 작업 흐름의 제약이 될 수 있음을 보여준다 [07:40]

6. 소프트웨어 커리어 리스크와 Dota 클론 실제 결과

진행자는 AI 도구 발전 속도를 2~3년 더 외삽하면 소프트웨어 직업의 경쟁 조건이 크게 바뀔 수 있다고 드러낸다 [09:17]
특히 수백만 줄 코드베이스를 다루는 모델과 인간 개발자가 정면으로 경쟁하려는 선택은 위험해질 수 있다는 관점이 드러난다 [09:32]
계산기와 경쟁하지 않고 계산기를 사용하는 것처럼, 창업자나 개발자는 Fable 5 같은 모델을 경쟁자가 아니라 팀원처럼 활용해 앱을 만들 수 있다는 비유가 나온다 [09:39]
동시에 마케팅, 분배, 팀 빌딩, 고객지원, 제품 문제 정의처럼 모델만으로 해결되지 않는 영역은 여전히 인간의 가치가 남는 영역으로 압축된다 [09:54]

7. Dota 유사 게임에서 전투·아이템·미니맵 로직이 작동한다

생성된 Dota 유사 게임에서는 캐릭터가 화염 계열 스킬을 사용하고, 적 영웅과 정글 크립이 등장하는 등 MOBA식 전투 환경이 구성된다 [12:01]
이는 단순한 3D 장면 생성이 아니라, 플레이어 캐릭터와 적대 객체, 스킬 사용, 전투 상황이 함께 작동하는 게임 상태를 만든 결과로 평가된다 [12:16]
상점에서 브레이서를 구매하자 아이템이 인벤토리에 들어가고, HP 170 증가와 초당 회복 수치가 체력 표시와 연결된다 [12:31]
아이템 구매가 화면 표시로만 끝나지 않고 게임 상태에 반영되면서, 상점·인벤토리·스탯 변화가 하나의 로직으로 묶여 있음을 보여준다 [12:46]

8. 핵심 게임 시스템이 갖춰지고 그래픽만 보완 과제로 남는다

상점 재구매와 탱고 아이템 사용이 가능해지며, 회복 아이템을 사용하는 기본 흐름도 구현된 것으로 확인된다 [13:34]
다만 트리 대상 지정까지는 구현되지 않아, Dota의 세부 규칙 전체가 완벽하게 재현된 것은 아니라는 한계가 남는다 [13:49]
현재 수준은 스틱 피겨 형태의 Dota 게임에 가깝지만, 스킬, 상점, 아이템, 적 영웅, 타워, 사망 규칙이 함께 묶여 작동한다는 점이 중요하다 [14:00]
진행자는 그래픽 완성도만 보완된다면 몇 년 뒤에는 훨씬 더 높은 수준의 게임 제작이 가능해질 수 있다고 보며, 이 결과를 발전 가능성의 신호로 해석한다 [14:15]

9. 도시철도 시뮬레이션과 영화 속 장난감 웹사이트가 한 번에 구성된다

Mumbai local network simulator는 철도 네트워크를 만들고 실시간 데이터를 맵에 배치하는 방식으로 구성된다 [14:52]
결과물은 시간당 이동 인원, 중단된 열차, 평균 지연, 운행 열차 수 같은 운영 지표를 보여주며, 단순 지도보다 시뮬레이션 대시보드에 가까운 형태를 갖춘다 [15:07]
Churchgate 역을 클릭하자 3D 시각화와 플랫폼 안내 방송이 이어지며, 역 환경과 정보 전달이 결합된 장면이 나타난다 [15:22]
진행자는 거의 노력 없이 한 번에 나온 결과물임에도 역 환경, 데이터 표시, 안내 요소가 함께 구성된 점을 인상적으로 본다 [15:37]

10. 모바일 3D 크리켓 게임까지 작동하며 원샷 제작 범위가 넓어진다

Stick Cricket 3D는 휴대폰에서 실행되는 형태로 만들어지고, 화면 회전 안내부터 게임 시작 흐름까지 포함한다 [17:29]
팀 선택, 상대 선택, 5오버 경기 설정이 이어지며, 모바일 게임으로서 필요한 초기 설정 단계가 구성된다 [17:44]
게임은 좌우 탭 조작과 그린존 타이밍 규칙을 제시하며, 사용자가 타격 타이밍을 맞추는 방식으로 플레이가 진행된다 [17:55]
24점 목표 상황에서 스윙 실패, 오프사이드 타격, 블록, 볼드아웃 같은 결과가 이어지며, 단순 UI가 아니라 경기 규칙에 따른 플레이 흐름이 작동한다 [18:10]

11. 리서치 덱 자동 생성이 지식 노동의 역할 변화를 드러낸다

Indian creator economy 리포트는 Indus Valley Report와 유사한 스타일의 전체 슬라이드 덱으로 생성된다 [19:20]
진행자는 데이터와 인사이트가 상당히 정확해 보인다고 평가하며, 이런 수준이라면 리서치 인턴의 필요성이 줄어드는 상황을 떠올릴 수 있다고 본다 [19:35]
덱에는 인도 active creators 400만~440만 명, 의미 있는 수익화 비율 12%, 2025년 인플루언서 마케팅 3,000억~3,500억 루피, 22% 성장률과 5,000억 루피 전망이 포함된다 [20:12]
검증 필요: 위 수치들은 영상 속 생성 결과에 포함된 내용으로 정리한 것이며, 실제 시장 데이터로 단정하려면 외부 원자료 확인이 필요하다 [20:27]
검증 필요: 제공된 section-detail에는 20:12 이후의 결론·마무리 발화가 포함되어 있지 않으므로, 영상 전체 길이 22:58 기준 후반부의 추가 논지는 원 transcript로 별도 확인이 필요하다 [22:53]

🧾 결론

Fable 5의 핵심 인상은 “코드를 조금 생성하는 모델”을 넘어, 앱·게임·시뮬레이션·리서치 덱까지 한 번에 구성하는 제작형 모델에 가까워졌다는 점이다.
다만 성능 향상은 무제한 사용 가능성을 뜻하지 않는다. 민감 영역 제한, 도구 사용 약점, 긴 대기 시간, 높은 토큰 소모가 실제 활용성을 제약한다.
영상에서 가장 설득력 있는 부분은 벤치마크 점수가 아니라, 3D PC 빌더와 Dota 유사 게임처럼 복잡한 인터랙션이 있는 결과물을 직접 비교한 실사용 장면이다.
소프트웨어 개발자는 모델과 직접 경쟁하기보다, 모델을 활용해 더 빠르게 제품을 만들고 검증하는 방향으로 역할이 이동할 가능성이 크다.
검증 필요: Stripe의 5천만 줄 Ruby 코드베이스 처리 사례, Indian creator economy 덱의 수치, 6월 22일 이후 기능 중단 가능성은 영상 내 언급 기준이며 별도 확인이 필요하다.

📈 투자·시사 포인트

AI 모델 경쟁의 판단 기준은 단순 텍스트 품질이나 벤치마크에서, 실제 앱·게임·리서치 산출물을 얼마나 완성도 있게 만들 수 있는지로 이동하고 있다.
모델 자체보다도 3D 엔진, 오디오 생성기, 이미지 생성기, 배포·구매 흐름과 연결되는 도구 생태계가 더 큰 레버리지 포인트가 될 수 있다.
지식 노동 영역에서는 리서치 인턴, 초안 작성, 슬라이드 덱 제작처럼 반복적 분석·정리 업무가 먼저 자동화 압력을 받을 가능성이 높다.
게임·인터랙티브 콘텐츠 제작에서는 그래픽 품질보다 규칙·상태·상호작용 로직을 빠르게 구현하는 능력이 초기 프로토타이핑 비용을 크게 낮출 수 있다.
투자 관점에서는 “모델 성능”뿐 아니라 속도, 사용 한도, 안전 제한, 외부 도구 연동성까지 함께 봐야 실제 제품화 가능성을 판단할 수 있다.

⚠️ 불확실하거나 확인이 필요한 부분

Stripe의 “5천만 줄 Ruby 코드베이스에서 두 달치 엔지니어링을 며칠로 압축했다”는 사례는 영상 내 보고로 제시된 것이며, 독립 출처나 실제 적용 범위 검증이 필요하다.
3D PC 빌더의 자산이 모델이 직접 생성한 것인지, 기존 에셋을 불러오거나 변환한 것인지는 명확하지 않다.
Dota 유사 게임, 도시철도 시뮬레이터, 모바일 크리켓 게임은 데모상 작동 흐름이 보이지만 코드 품질, 재현성, 유지보수성, 확장 가능성은 별도로 확인해야 한다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

Fable 5의 출시명, 제한 정책, 사이버보안·생물학 관련 사용 제한을 공식 Anthropic 자료로 확인한다.
동일하거나 유사한 프롬프트로 GPT, Gemini, Fable 5 결과물을 비교하고 상호작용성·완성도·재현성을 기준화한다.
3D PC 빌더 결과물의 코드와 에셋 출처를 확인해 실제 생성 능력인지, 라이브러리·외부 자산 조합인지 구분한다.
대규모 기존 코드베이스 처리 능력은 Stripe 사례만 인용하지 말고 자체 코드베이스 또는 공개 프로젝트로 작은 파일럿을 돌려본다.

❓ 열린 질문

Fable 5가 보여준 3D 앱 품질은 모델 자체의 공간·코딩 능력 때문인가, 아니면 외부 자산과 프레임워크 활용이 큰 비중을 차지한 것인가?
Stripe식 대규모 코드베이스 생산성 향상이 다른 언어, 프레임워크, 레거시 프로젝트에서도 재현될 수 있는가?
tool use 약점이 Unreal, IDE, 장기 에이전트 작업 같은 실무 환경에서 어느 정도 병목으로 작용하는가?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. Fable 5의 위험 제한과 실사용 검증 기준

2. 3D PC 빌더에서 드러난 앱 제작 완성도

3. 실제 3D 자산과 기존 모델 대비 격차

4. Dota 2 클론 과제로 드러난 복잡도와 도구 사용 한계

5. 느린 응답과 장기 문맥 처리 방식

6. 소프트웨어 커리어 리스크와 Dota 클론 실제 결과

7. Dota 유사 게임에서 전투·아이템·미니맵 로직이 작동한다

8. 핵심 게임 시스템이 갖춰지고 그래픽만 보완 과제로 남는다

9. 도시철도 시뮬레이션과 영화 속 장난감 웹사이트가 한 번에 구성된다

10. 모바일 3D 크리켓 게임까지 작동하며 원샷 제작 범위가 넓어진다

11. 리서치 덱 자동 생성이 지식 노동의 역할 변화를 드러낸다

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

We Might Actually Need to Stop AI

Retardmaxxing: the best cure for overthinking

외주 개발 곧 사라진다, AI 네이티브 전환한 IT 에이전시 대표가 단언한 진짜 이유 (똑똑한개발자 서장원 대표님)

[월가아재] AI 버블은 언제 터질까? 끝을 알리는 3가지 신호

클로드 코드 쓰는 자동화 고수들이 그래도 n8n을 추천하는 이유

The Ultimate Beginner''s Guide To Codex