I Battle Tested Sakana Fugu''s Fable Killer
Quick Summary
Sakana Fugu의 Fable Killer 실전 테스트 결과, Fugu Ultra는 흥미로운 오케스트레이션 방향을 보여줬지만 개인 사용 기준에서는 Opus 4.8보다 느리고 비싸다는 한계가 더 크게 드러났다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Sakana Fugu의 Fable Killer 실전 테스트 결과, Fugu Ultra는 흥미로운 오케스트레이션 방향을 보여줬지만 개인 사용 기준에서는 Opus 4.8보다 느리고 비싸다는 한계가 더 크게 드러났다.
📌 핵심 요점
- Fugu Ultra는 단일 초거대 모델이라기보다 Opus, GPT, Gemini 등 여러 프런티어 모델을 작업별로 라우팅하고 조율하는 오케스트레이션 API에 가깝다.
- 벤치마크에서는 Fable, Mythos Preview, Opus 4.8보다 높은 결과를 냈다는 주장이 소개되지만, 영상의 핵심 검증은 실제 사용 환경에서 품질·속도·비용이 납득 가능한지에 맞춰졌다.
- Claude Code 환경에서 Fugu Ultra를 연결하면 작업을 분해하고 모델별 강점에 따라 writing, coding, research 등을 위임하는 방식으로 작동할 수 있다.
- 38개 테스트에서 Fugu와 Opus 4.8은 대부분 동률이었고, Fugu는 전체적으로 약 4.5배 느리고 약 5배 비싼 결과를 보였다.
- 발표자가 보기에 Fugu Ultra는 지식 작업과 개발 워크플로에서 가능성은 있지만, 현재 개인 사용자에게는 Claude Code, Codex 구독 조합을 넘어서는 효용을 충분히 입증하지 못했다.
🧩 배경과 문제 정의
- Sakana AI의 Fugu Ultra는 Fable·Mythos급 성능을 주장하지만, 영상에서는 이를 단일 초거대 모델이라기보다 Opus, GPT, Gemini 같은 여러 프런티어 모델을 조율하는 오케스트레이션 API에 가까운 방식으로 설명한다.
- 핵심 문제는 벤치마크 점수 자체보다, 실제 Claude Code 사용 환경에서 Fugu Ultra가 품질·속도·비용 측면에서 기존 Opus 4.8이나 Claude Code/Codex 조합보다 실질적으로 나은지를 확인하는 데 있다.
- 여러 모델을 자동으로 나누어 쓰는 구조는 지식 작업, 리서치, 코딩, 버그 수정처럼 성격이 다른 작업을 처리할 때 장점이 있을 수 있다.
- 다만 모델 호출이 여러 단계로 늘어나면 지연 시간과 API 비용이 커질 수 있으므로, 실사용 관점에서는 “더 똑똑한 모델”인지 “비싸고 느린 매니저”인지가 중요한 판단 기준이 된다.
- 영상의 검증 대상은 38개 테스트와 실제 Claude Code 사용 경험을 통해 Fugu Ultra가 벤치마크 주장만큼 현장에서 쓸 만한지 확인하는 것이다.
- 검증 필요: Fugu Ultra가 Fable, Mythos, GPT-5.5, Opus 4.8보다 우수하다는 벤치마크 비교는 영상에서 다루는 주장 기준이며, 독립적인 외부 검증 결과로 단정하지 않는다.
🕒 시간순 섹션별 상세정리
1. Fugu Ultra의 첫인상과 대시보드 결과
- Fugu Ultra 1M을 Claude Code 환경에서 실행하고, 한 번의 slash goal 프롬프트로 YouTube 대시보드 기능과 시각 요소를 포함한 작업을 생성한다 [00:12]
- 약 1시간 뒤 완성된 대시보드는 실시간 데이터 새로고침, 통계, audience pulse, distribution/performance, median·outlier 지표까지 포함해 꽤 완성도 높은 결과물로 드러난다 [00:26]
2. Fugu의 구조와 벤치마크 주장의 의미
- Fugu는 Opus, GPT, Gemini 등 서로 다른 프런티어 모델을 동적으로 라우팅하고 조율해 특정 벤치마크에서 Fable, GPT-5.5, Opus 4.8보다 높은 결과를 냈다고 묶인다 [01:20]
- 영상의 핵심 해석은 Fugu가 “하나의 더 큰 모델”이라기보다, 강점이 다른 모델들을 체인처럼 연결해 각 모델의 전문성을 활용하는 방식이라는 데 있다 [01:39]
- Fugu는 여러 모델을 사용자가 직접 선택하고 조율하는 부담을 줄이고, 이 과정을 하나의 API로 감싸 자동화하려는 접근으로 드러난다 [01:54]
3. Claude Code 안에서의 연결 방식과 자동 위임
- Fugu Ultra는 Claude Code 내부에서 사용할 수 있으며, 별도 마크다운 설정 파일과 API 키를 제공하면 실행 환경을 구성할 수 있다 [02:28]
- 사용자가 하나의 API에 요청을 보내면 작은 매니저 모델이 작업을 쪼개고, 각 하위 작업을 성격에 맞는 모델로 위임하는 구조로 드러난다 [03:03]
- 예시로 Claude는 writing, GPT는 coding·bug fix, Gemini는 research·facts 같은 역할을 맡을 수 있으며, 사용자는 이 과정을 직접 수동 배분하지 않아도 된다 [03:18]
4. OpenRouter Fusion과의 차이, 비용·속도 부담
- OpenRouter Fusion API는 같은 프롬프트를 세 모델에 동시에 보내고 judge가 결과를 병합하는 방식으로 드러난다 [05:09]
- Fugu는 같은 요청을 여러 모델에 병렬로 던져 투표하듯 합치는 방식이 아니라, 작업을 쪼개 모델별로 위임한다는 점에서 OpenRouter Fusion과 구조가 다르다 [05:24]
- 여러 LLM의 관점을 결합하면 결과 품질이 좋아질 가능성은 있지만, 그 대가로 응답 속도가 느려지고 실제 API 비용이 증가할 수 있다 [05:34]
- 따라서 Fugu의 실사용 가치는 단순히 “여러 모델을 쓴다”가 아니라, 추가 비용과 지연 시간을 감수할 만큼 결과 품질이 좋아지는지에 달려 있다 [05:49]
5. 무료 리소스 접근 안내
- 테스트 과정은 “awesome ride”로 마무리되며, 후반부의 초점은 추가 논쟁보다 사용자가 직접 실습 자료를 가져가 활용할 수 있는 접근성으로 이동한다 [12:00]
- GitHub 저장소, 스킬, 마크다운 파일, 리소스 가이드가 모두 무료 자료로 제공된다고 안내되며, 시청자가 코드와 문서를 기반으로 후속 활용을 이어갈 수 있게 구성된다 [12:02]
6. 영상 종료와 시청자 마무리 인사
- 본편 내용은 종료 단계에 들어가고, 남은 메시지는 새로운 기술적 논점보다 끝까지 시청한 사람들에 대한 감사 인사로 전환된다 [12:09]
- 진행자는 끝까지 도달한 시청자에게 감사하다고 말하며, 다음 콘텐츠에서 다시 만나자는 흐름으로 영상을 마무리한다 [12:10]
🧾 결론
- Fugu Ultra의 핵심 가치는 “더 똑똑한 단일 모델”이라기보다 여러 모델의 장단점을 묶어 하나의 API로 제공하는 조율 능력에 있다.
- 실전 테스트에서는 산출물 품질이 나쁘지 않았지만, Opus 4.8과 큰 차이를 만들지 못한 반면 시간과 비용 부담은 훨씬 컸다.
- 개인 사용자나 단일 작업 중심 환경에서는 느린 응답과 높은 비용 때문에 당장 주력 도구로 쓰기 어렵다는 판단이 가능하다.
- 다만 여러 모델을 자동으로 선택하고 결합하는 방향 자체는 장기적으로 의미가 있으며, 특히 작업별 비용·성능 최적화가 가능해질 경우 가치가 커질 수 있다.
- 검증 필요: Sakana AI가 제시한 벤치마크 우위는 영상에서 소개된 주장과 테스트 맥락에 기반한 것이므로, 독립적인 벤치마크와 더 다양한 실제 업무 테스트로 추가 확인이 필요하다.
📈 투자·시사 포인트
- AI 모델 시장의 경쟁 축은 단일 모델 성능뿐 아니라 여러 모델을 언제, 어떻게, 얼마의 비용으로 조합하느냐로 이동하고 있다.
- Fugu Ultra 같은 오케스트레이션 API는 기업 환경에서 모델 선택, 리뷰, 리서치, 작성, 버그 수정 등을 한 흐름으로 묶는 인프라형 제품으로 발전할 가능성이 있다.
- 현재 단계에서는 비용 효율성이 가장 큰 병목이다. 품질 향상이 미미한데 5배 비용이 든다면 개인 사용자와 소규모 팀의 채택은 제한될 수 있다.
- 장기적으로는 특정 벤더에 고정되지 않고 작업별 최적 모델을 선택하는 구조가 중요해질 수 있으며, 이는 AI 애플리케이션 비용 최적화 시장의 성장 포인트가 될 수 있다.
- 투자 관점에서는 “최고 성능 모델”보다 “모델 라우팅, 평가, 비용 제어, 결과 통합”을 잘하는 계층이 새로운 경쟁 영역이 될 가능성을 주목할 만하다.
⚠️ 불확실하거나 확인이 필요한 부분
- Fugu Ultra가 Fable·Mythos·GPT-5.5·Opus 4.8보다 높았다는 벤치마크 주장은 영상 내 설명 기준이며, 벤치마크 조건·평가 방식·재현 가능성은 별도 확인이 필요하다.
- 38개 테스트 중 36개가 동률이었다는 비교 결과는 유용한 신호지만, 과제 난이도·채점 기준·실패 사례·통계적 유의성까지는 입력 내용만으로 검증할 수 없다.
- Fugu 결과물 중 실제로 어떤 비율이 Opus 4.8, GPT, Gemini 등 각 모델에서 생성됐는지는 공개적으로 추적 가능한지 불명확하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- Fugu Ultra를 도입하기 전에 현재 사용 중인 Claude Code/Codex/Opus 4.8 워크플로와 동일 과제로 비용·시간·품질을 직접 비교한다.
- 단순 코딩·문서 작성 과제에는 우선 기존 단일 모델을 baseline으로 두고, Fugu는 복합 리서치·기획·코딩이 섞인 작업에서만 제한적으로 테스트한다.
- 테스트 시 요청당 총 비용, wall-clock 시간, 재시도 횟수, 결과 수정 시간까지 함께 기록해 “모델 품질”이 아니라 “실무 총비용” 기준으로 평가한다.
- Fugu가 어떤 모델을 호출하고 어떤 데이터를 외부 모델에 전달하는지 확인해 보안·개인정보·고객 데이터 사용 가능 범위를 점검한다.
❓ 열린 질문
- Fugu Ultra가 4.5배 느리고 5배 비싼 비용을 정당화할 만큼 확실히 더 나은 작업 유형은 무엇인가?
- Fugu의 라우팅·위임·결합 과정은 사용자가 감사하거나 재현할 수 있을 만큼 투명하게 제공되는가?
- Opus 4.8 단독 사용과 비교했을 때, Fugu가 실제로 품질 개선을 만든 사례는 38개 테스트 중 어느 2개였는가?