I Battle Tested Sakana Fugu''s Fable Killer

🖼️ 인포그래픽

I Battle Tested Sakana Fugu''s Fable Killer 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Sakana Fugu의 Fable Killer 실전 테스트 결과, Fugu Ultra는 흥미로운 오케스트레이션 방향을 보여줬지만 개인 사용 기준에서는 Opus 4.8보다 느리고 비싸다는 한계가 더 크게 드러났다.

📌 핵심 요점

Fugu Ultra는 단일 초거대 모델이라기보다 Opus, GPT, Gemini 등 여러 프런티어 모델을 작업별로 라우팅하고 조율하는 오케스트레이션 API에 가깝다.
벤치마크에서는 Fable, Mythos Preview, Opus 4.8보다 높은 결과를 냈다는 주장이 소개되지만, 영상의 핵심 검증은 실제 사용 환경에서 품질·속도·비용이 납득 가능한지에 맞춰졌다.
Claude Code 환경에서 Fugu Ultra를 연결하면 작업을 분해하고 모델별 강점에 따라 writing, coding, research 등을 위임하는 방식으로 작동할 수 있다.
38개 테스트에서 Fugu와 Opus 4.8은 대부분 동률이었고, Fugu는 전체적으로 약 4.5배 느리고 약 5배 비싼 결과를 보였다.
발표자가 보기에 Fugu Ultra는 지식 작업과 개발 워크플로에서 가능성은 있지만, 현재 개인 사용자에게는 Claude Code, Codex 구독 조합을 넘어서는 효용을 충분히 입증하지 못했다.

🧩 배경과 문제 정의

Sakana AI의 Fugu Ultra는 Fable·Mythos급 성능을 주장하지만, 영상에서는 이를 단일 초거대 모델이라기보다 Opus, GPT, Gemini 같은 여러 프런티어 모델을 조율하는 오케스트레이션 API에 가까운 방식으로 설명한다.
핵심 문제는 벤치마크 점수 자체보다, 실제 Claude Code 사용 환경에서 Fugu Ultra가 품질·속도·비용 측면에서 기존 Opus 4.8이나 Claude Code/Codex 조합보다 실질적으로 나은지를 확인하는 데 있다.
여러 모델을 자동으로 나누어 쓰는 구조는 지식 작업, 리서치, 코딩, 버그 수정처럼 성격이 다른 작업을 처리할 때 장점이 있을 수 있다.
다만 모델 호출이 여러 단계로 늘어나면 지연 시간과 API 비용이 커질 수 있으므로, 실사용 관점에서는 “더 똑똑한 모델”인지 “비싸고 느린 매니저”인지가 중요한 판단 기준이 된다.
영상의 검증 대상은 38개 테스트와 실제 Claude Code 사용 경험을 통해 Fugu Ultra가 벤치마크 주장만큼 현장에서 쓸 만한지 확인하는 것이다.
검증 필요: Fugu Ultra가 Fable, Mythos, GPT-5.5, Opus 4.8보다 우수하다는 벤치마크 비교는 영상에서 다루는 주장 기준이며, 독립적인 외부 검증 결과로 단정하지 않는다.

🕒 시간순 섹션별 상세정리

1. Fugu Ultra의 첫인상과 대시보드 결과

Fugu Ultra 1M을 Claude Code 환경에서 실행하고, 한 번의 slash goal 프롬프트로 YouTube 대시보드 기능과 시각 요소를 포함한 작업을 생성한다 [00:12]
약 1시간 뒤 완성된 대시보드는 실시간 데이터 새로고침, 통계, audience pulse, distribution/performance, median·outlier 지표까지 포함해 꽤 완성도 높은 결과물로 드러난다 [00:26]

2. Fugu의 구조와 벤치마크 주장의 의미

Fugu는 Opus, GPT, Gemini 등 서로 다른 프런티어 모델을 동적으로 라우팅하고 조율해 특정 벤치마크에서 Fable, GPT-5.5, Opus 4.8보다 높은 결과를 냈다고 묶인다 [01:20]
영상의 핵심 해석은 Fugu가 “하나의 더 큰 모델”이라기보다, 강점이 다른 모델들을 체인처럼 연결해 각 모델의 전문성을 활용하는 방식이라는 데 있다 [01:39]
Fugu는 여러 모델을 사용자가 직접 선택하고 조율하는 부담을 줄이고, 이 과정을 하나의 API로 감싸 자동화하려는 접근으로 드러난다 [01:54]

3. Claude Code 안에서의 연결 방식과 자동 위임

Fugu Ultra는 Claude Code 내부에서 사용할 수 있으며, 별도 마크다운 설정 파일과 API 키를 제공하면 실행 환경을 구성할 수 있다 [02:28]
사용자가 하나의 API에 요청을 보내면 작은 매니저 모델이 작업을 쪼개고, 각 하위 작업을 성격에 맞는 모델로 위임하는 구조로 드러난다 [03:03]
예시로 Claude는 writing, GPT는 coding·bug fix, Gemini는 research·facts 같은 역할을 맡을 수 있으며, 사용자는 이 과정을 직접 수동 배분하지 않아도 된다 [03:18]

4. OpenRouter Fusion과의 차이, 비용·속도 부담

OpenRouter Fusion API는 같은 프롬프트를 세 모델에 동시에 보내고 judge가 결과를 병합하는 방식으로 드러난다 [05:09]
Fugu는 같은 요청을 여러 모델에 병렬로 던져 투표하듯 합치는 방식이 아니라, 작업을 쪼개 모델별로 위임한다는 점에서 OpenRouter Fusion과 구조가 다르다 [05:24]
여러 LLM의 관점을 결합하면 결과 품질이 좋아질 가능성은 있지만, 그 대가로 응답 속도가 느려지고 실제 API 비용이 증가할 수 있다 [05:34]
따라서 Fugu의 실사용 가치는 단순히 “여러 모델을 쓴다”가 아니라, 추가 비용과 지연 시간을 감수할 만큼 결과 품질이 좋아지는지에 달려 있다 [05:49]

5. 무료 리소스 접근 안내

테스트 과정은 “awesome ride”로 마무리되며, 후반부의 초점은 추가 논쟁보다 사용자가 직접 실습 자료를 가져가 활용할 수 있는 접근성으로 이동한다 [12:00]
GitHub 저장소, 스킬, 마크다운 파일, 리소스 가이드가 모두 무료 자료로 제공된다고 안내되며, 시청자가 코드와 문서를 기반으로 후속 활용을 이어갈 수 있게 구성된다 [12:02]

6. 영상 종료와 시청자 마무리 인사

본편 내용은 종료 단계에 들어가고, 남은 메시지는 새로운 기술적 논점보다 끝까지 시청한 사람들에 대한 감사 인사로 전환된다 [12:09]
진행자는 끝까지 도달한 시청자에게 감사하다고 말하며, 다음 콘텐츠에서 다시 만나자는 흐름으로 영상을 마무리한다 [12:10]

🧾 결론

Fugu Ultra의 핵심 가치는 “더 똑똑한 단일 모델”이라기보다 여러 모델의 장단점을 묶어 하나의 API로 제공하는 조율 능력에 있다.
실전 테스트에서는 산출물 품질이 나쁘지 않았지만, Opus 4.8과 큰 차이를 만들지 못한 반면 시간과 비용 부담은 훨씬 컸다.
개인 사용자나 단일 작업 중심 환경에서는 느린 응답과 높은 비용 때문에 당장 주력 도구로 쓰기 어렵다는 판단이 가능하다.
다만 여러 모델을 자동으로 선택하고 결합하는 방향 자체는 장기적으로 의미가 있으며, 특히 작업별 비용·성능 최적화가 가능해질 경우 가치가 커질 수 있다.
검증 필요: Sakana AI가 제시한 벤치마크 우위는 영상에서 소개된 주장과 테스트 맥락에 기반한 것이므로, 독립적인 벤치마크와 더 다양한 실제 업무 테스트로 추가 확인이 필요하다.

📈 투자·시사 포인트

AI 모델 시장의 경쟁 축은 단일 모델 성능뿐 아니라 여러 모델을 언제, 어떻게, 얼마의 비용으로 조합하느냐로 이동하고 있다.
Fugu Ultra 같은 오케스트레이션 API는 기업 환경에서 모델 선택, 리뷰, 리서치, 작성, 버그 수정 등을 한 흐름으로 묶는 인프라형 제품으로 발전할 가능성이 있다.
현재 단계에서는 비용 효율성이 가장 큰 병목이다. 품질 향상이 미미한데 5배 비용이 든다면 개인 사용자와 소규모 팀의 채택은 제한될 수 있다.
장기적으로는 특정 벤더에 고정되지 않고 작업별 최적 모델을 선택하는 구조가 중요해질 수 있으며, 이는 AI 애플리케이션 비용 최적화 시장의 성장 포인트가 될 수 있다.
투자 관점에서는 “최고 성능 모델”보다 “모델 라우팅, 평가, 비용 제어, 결과 통합”을 잘하는 계층이 새로운 경쟁 영역이 될 가능성을 주목할 만하다.

⚠️ 불확실하거나 확인이 필요한 부분

Fugu Ultra가 Fable·Mythos·GPT-5.5·Opus 4.8보다 높았다는 벤치마크 주장은 영상 내 설명 기준이며, 벤치마크 조건·평가 방식·재현 가능성은 별도 확인이 필요하다.
38개 테스트 중 36개가 동률이었다는 비교 결과는 유용한 신호지만, 과제 난이도·채점 기준·실패 사례·통계적 유의성까지는 입력 내용만으로 검증할 수 없다.
Fugu 결과물 중 실제로 어떤 비율이 Opus 4.8, GPT, Gemini 등 각 모델에서 생성됐는지는 공개적으로 추적 가능한지 불명확하다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

Fugu Ultra를 도입하기 전에 현재 사용 중인 Claude Code/Codex/Opus 4.8 워크플로와 동일 과제로 비용·시간·품질을 직접 비교한다.
단순 코딩·문서 작성 과제에는 우선 기존 단일 모델을 baseline으로 두고, Fugu는 복합 리서치·기획·코딩이 섞인 작업에서만 제한적으로 테스트한다.
테스트 시 요청당 총 비용, wall-clock 시간, 재시도 횟수, 결과 수정 시간까지 함께 기록해 “모델 품질”이 아니라 “실무 총비용” 기준으로 평가한다.
Fugu가 어떤 모델을 호출하고 어떤 데이터를 외부 모델에 전달하는지 확인해 보안·개인정보·고객 데이터 사용 가능 범위를 점검한다.