EP 99. Opus 4.8 출시, 요즘 AI 경쟁과 인간의 일
Quick Summary
Opus 4.8 출시는 AI 경쟁의 속도가 모델 성능 싸움을 넘어 비용·지연시간·에이전트 워크플로·인간의 일 재정의로 이동하고 있음을 보여준다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Opus 4.8 출시는 AI 경쟁의 속도가 모델 성능 싸움을 넘어 비용·지연시간·에이전트 워크플로·인간의 일 재정의로 이동하고 있음을 보여준다.
📌 핵심 요점
- Opus 4.8은 Opus 4.7 이후 43일 만에 등장하며, 프런티어 모델의 교체 주기가 기존의 두 달 안팎보다 더 짧아질 수 있음을 보여준다.
- 모델 경쟁의 중심은 단순 벤치마크 점수보다 비용, latency, 토큰 경제성, 충분한 품질을 더 빠르고 싸게 제공하는 능력으로 이동하고 있다.
- Google의 Gemini 3.5 Flash, Anthropic의 Dynamic Workflows, OpenAI의 Codex 계열 흐름은 장기 작업을 에이전트·하네스·서브에이전트 구조로 처리하는 방향을 강화한다.
- AI 활용은 인간의 창의성을 단순히 대체하기보다, 인간이 사고하고 배우고 문제를 푸는 지형을 바꾸며, 어떤 사람에게는 능력 확장으로, 어떤 사람에게는 사고 근육 약화로 작동할 수 있다.
- 기업 업무에서는 개발자와 비개발자의 경계가 흐려지고, 중요한 역량이 코드 작성 자체보다 고객 문제를 이해하고 AI 도구·워크플로·암묵지를 활용해 해결하는 능력으로 옮겨가고 있다.
🧩 배경과 문제 정의
- Opus 4.8이 Opus 4.7 출시 43일 만에 공개되면서, 프런티어 모델의 교체 주기가 기존의 “두 달 단위”보다 더 짧아지고 있다.
- AI 모델 경쟁은 단순한 성능 향상을 넘어 비용, 지연시간, 토큰 경제성, 제품화 속도를 함께 압박하는 국면으로 바뀌고 있다.
- Google, Anthropic, OpenAI가 여름 전후로 새 모델과 에이전트 워크플로를 준비하면서, 기업의 업무 방식도 메일·문서 중심에서 에이전트 애플리케이션 중심으로 이동하고 있다.
🕒 시간순 섹션별 상세정리
1. Opus 4.8의 빠른 출시와 두 달 주기의 붕괴
- Google I/O와 Opus 새 버전 출시가 잇따르며, AI 제품 환경은 불과 몇 주 사이 다시 크게 달라졌다 [01:02]
- Opus 4.7은 4월 16일 공개됐고, Opus 4.8은 43일 만에 출시되면서 기존 70일 안팎의 업데이트 주기보다 훨씬 빨라졌다 [01:17]
2. 싱귤래리티식 가속과 Anthropic의 다음 모델 예고
- 기술 발전이 특정 지점 이후 폭발적으로 빨라진다는 싱귤래리티 관점에서 보면, Opus 4.8의 짧은 출시 간격은 가속의 신호처럼 보인다 [02:43]
- Anthropic은 Opus 4.8이 이전 모델보다 작지만 체감 가능한 개선을 제공한다고 설명하며, 같은 역량을 더 낮은 비용으로 제공하는 모델도 준비 중이라고 밝혔다 [03:14]
3. 여름을 앞둔 Google·Anthropic·OpenAI의 모델 경쟁
- Opus 4.8이 5월 말에 이미 나온 만큼, 이 빨라진 흐름을 적용하면 7월이나 8월에도 또 한 번 큰 변화가 나타날 가능성이 커진다 [04:49]
- Google I/O에서는 Gemini 3.5 Flash가 중심이었고 Pro는 아직 준비되지 않았지만, 몇 주 뒤 다음 모델 공개 가능성이 암시되며 여름 전후 경쟁 구도가 맞물린다 [05:22]
4. 모델 성능보다 비용·지연시간·업무 적용성이 핵심 변수로 부상
- Opus 4.8은 Opus 4.7이나 4.6보다 더 작고 효율적인 모델이지만, 외부 벤치마크와 사용자 반응에서는 뚜렷한 성능 저하가 드러나지 않는다 [06:29]
- 일부 벤치마크는 Opus 4.7보다 낮고 일부는 높게 나타나며, 모델 경쟁의 초점은 단순 점수 상승보다 토큰 경제성 안에서 실질적으로 살아남는 문제로 옮겨간다 [06:51]
5. Gemini 3.5 Flash와 장기 작업 에이전트 데모
- Google이 Flash 모델을 전면에 내세운 배경에는 충분한 품질과 낮은 지연시간을 동시에 만족하는 “빠르고 좋은” 모델 수요가 있다 [08:21]
- Varun Mohan의 데모에서는 93개 subagent와 1만 5천 회 이상의 model call을 사용해 custom kernel, filesystem, driver를 처음부터 만들고, 12시간 뒤 Doom을 실행했다 [08:44]
6. Anthropic Dynamic Workflows와 결정적 오케스트레이션 구조
- Opus 4.8과 함께 Dynamic Workflows가 등장했고, Claude가 checklist를 처리한 뒤 push와 merge까지 수행하는 앱형 작업 흐름이 시연됐다 [10:00]
- Claude 관련 영상은 UI와 연출이 화려하지만, 실제 핵심은 여러 작업 단계를 자동으로 수행하는 애플리케이션 제작과 코드 변경 흐름에 있다 [10:21]
7. Dynamic Workflows와 하네스 기반 제어
- Dynamic Workflows는 모델이 모든 분기점을 매번 읽고 판단하는 방식이라기보다, 초기에 동적 하네스나 스크립트를 만들어 서브에이전트 조율을 맡기는 구조에 가깝다 [12:10]
- 모델이 자기 작업을 직접 평가하게 두면 어려운 과제에서 완료를 과장할 수 있으므로, 실행 횟수와 품질을 조이려면 결정적 도구와 코드 기반 검사가 필요하다 [12:44]
8. 기존 연구와 RLM·DSPy로 이어지는 계보
- Dynamic Workflows에 대해 “이미 있던 개념”이라는 반응이 많고, oh-my-openagent나 OMX 같은 프로젝트에서도 유사한 개념은 이미 작동해 왔다 [13:36]
- Managed Agents 논의에서는 “뇌와 손의 분리”처럼 컨텍스트를 REPL 외부의 객체로 다루고, LLM이 결정적 도구를 통해 프로그래밍 방식으로 작업을 수행하는 흐름이 나타난다 [14:04]
9. 메타 최적화와 long-horizon task의 실제 구조
- DSPy, TextGrad, RLM 계열은 모두 한 단계 위 레이어에서 최적화를 수행하는 meta optimization으로 볼 수 있으며, 프롬프트 성능도 메타 옵티마이저를 통해 개선할 수 있다 [15:40]
- 평가 지표가 있는 문제라면 모델과 컴퓨팅을 검색·최적화에 투입해 성능을 끌어올릴 수 있고, Karpathy의 auto research 개념도 같은 핵심을 공유한다 [16:15]
10. Code as harness와 클라우드형 에이전트 실행 환경
- 수학에서도 가설을 세우고 실험하며, 오류를 기록한 뒤 다음 가설로 이어가는 반복 구조가 나타난다. 모델의 objective만 달라질 뿐 방법론은 같은 메타 최적화에 가깝다 [18:02]
- “code as harness”는 에이전트 실행을 코드로 견고하게 묶는 방향을 잘 드러내며, Cloudflare Dynamic Workflows와 Project Think도 같은 문제의식 위에 놓인다 [18:27]
11. 개인 실험과 토큰 비용이 드러낸 실행 현실
- Minecraft 에이전트 실험에서는 1년 전과 달리 환경 변화가 크게 체감됐고, 10시간짜리 작업을 밤새 돌린 뒤 아침에 결과물이 나온 듯한 상태가 확인된다 [19:52]
- 최신 Minecraft 버전에서는 Mineflayer 계열 오픈소스가 충분히 따라오지 못해, 프로토콜 추정과 block ID 추출부터 바닥에서 쌓아 에이전트 환경을 구성했다 [20:06]
12. 수학 문제 해결과 인간-AI 협업의 재구성
- OpenAI뿐 아니라 Anthropic의 Mythos와 Gemini도 비슷한 성과를 냈다는 소식이 이어지며, 여러 조직이 수학 문제 해결에서 유사한 접근에 도달했음을 보여준다 [21:15]
- Noam Brown은 AlphaGo 이후 인간 바둑 기사들의 실력이 뚜렷하게 올라간 것처럼, 수학에서도 AI 이후 인간 연구자의 수준과 탐색 방식이 달라질 수 있다고 본다 [21:59]
13. 창의성의 소멸보다 지형 변화가 핵심이다
- AI는 서로 다른 문헌과 개념을 연결하는 능력을 보여주며, 인간도 그 연결 방식을 학습해 다른 영역으로 전이할 가능성을 갖게 된다 [24:02]
- 중요한 변화는 모델과의 대화 자체가 아니라, 인간의 창의성이 사라지는 것이 아니라 창의적 사고가 발생하는 지형이 바뀐다는 점이다 [24:27]
14. AI는 격차를 줄이면서 동시에 벌리는 도구가 된다
- AI에는 intelligence augmentation과 amplification 효과가 분명히 있으며, 동시에 기술이 다시 격차를 벌리는 도구로 작동할 수 있다는 긴장도 생긴다 [25:17]
- 초지능이나 AGI에 가까워질수록 기회가 넓어지고 격차가 얇아질 것이라는 기대와 달리, 실제 사용에서는 도파민을 자극하는 slot machine 같은 측면도 드러난다 [25:31]
15. 일의 기준은 사고 근육에서 새로운 자격과 능력으로 이동한다
- 과거에는 흙을 얼마나 옮기는지가 체력과 기술의 능력값이었지만, 굴착기와 로더가 등장한 뒤에는 장비를 다루는 자격과 면허가 핵심이 됐다 [26:21]
- 지식 산업에서도 과거에는 사고 근육으로 문제를 해결했지만, AI 이후에는 다른 층위의 자격과 능력이 더 중요해질 가능성이 커진다 [26:50]
16. OpenAI와 Anthropic은 기업 lock-in과 유료 사용으로 PMF를 확보한다
- OpenAI는 703개, Anthropic은 390개의 공개 채용을 내걸었고, 기업 고객은 이미 API 비용을 지불하며 AI 사용을 중단하기 어려운 상태에 들어섰다 [27:44]
- 1인당 100달러나 200달러 플랜이 엔지니어뿐 아니라 비엔지니어에게도 확산되며, Claude Code 같은 도구가 조직 전반의 기본 업무 도구로 자리 잡아간다 [28:18]
17. 토큰 수요와 AI 채용은 확장 국면과 정체론이 충돌한다
- 토큰 가격은 단기적으로 상승 여지가 있고, 메모리 가격 상승도 AI 수요가 계속 늘고 있음을 뒷받침한다 [29:11]
- 외부 투자 관점에서는 이미 쓸 사람은 다 썼고 plateau에 도달했다는 해석이 나오지만, 기술 업계 내부에서는 아직 시작 단계라는 감각이 강하다 [29:29]
18. 개발자는 코드 작성자보다 고객 문제 해결자로 재정의된다
- Claude Code를 다루는 사람은 새로운 층위의 problem solver가 되고, 실제 엔지니어는 코드 작성보다 AWS, 웹서버, Redis, DB, OS, 아키텍처 전반을 이해할 때 더 강해진다 [32:19]
- 고객이 구매하는 것은 아키텍처가 아니라 자기 문제의 해결이며, 앱 제작 과정이 빨라져도 고객을 확보하고 실제 문제를 푸는 구간은 여전히 남는다 [33:17]
19. 전통적 엔지니어 경계가 문제 해결형 인재로 확장된다
- 모든 사람이 문제 해결자이자 단위 비즈니스 운영자로 정의되는 편이 더 정확하며, 회사 안에서도 Claude Code 사용 이후 전통적 엔지니어 출신과 비엔지니어 출신이 함께 엔지니어링 업무를 수행한다 [36:03]
- 마케팅, PM 출신 인력도 엔지니어들이 만든 암묵지를 프롬프트와 skill 형태로 호출하면서 여러 문제를 한 번에 해결하는 경험을 얻고, 인력 개념 자체가 바뀐다 [36:24]
20. AI 활용 인재 수요와 엔지니어 역할이 동시에 재배치된다
- 인간이 할 일은 오히려 늘어날 수 있다. 사람들이 문제를 만들어내는 속도가 문제를 해결하는 속도보다 빠르기 때문에, AI를 활용해 문제를 푸는 수요도 크게 커질 수 있다 [37:57]
- 전통적 엔지니어 역할은 더 낮은 계층으로 이동해 inference 속도 개선, 고급 token engineering, infrastructure engineering, model building 같은 영역으로 재배치될 가능성이 있다 [38:12]
21. 엔터프라이즈 AI 도입은 비용·보안·모델 배치 문제로 바뀐다
- 4월은 큰 변곡점으로 인식된다. 연구소 투자는 계속되고 있지만 지속 가능 기간은 불확실하며, API 매출의 중요성은 상대적으로 낮아지는 흐름이 나타난다 [39:18]
- 대형 기업, 은행, 초대형 IP를 보유한 회사는 Claude Code를 그대로 쓰기 어렵다. 대신 Claude Code harness에 Qwen이나 GLM 같은 로컬 모델을 연결하는 온프레미스 수요가 커질 수 있다 [39:46]
22. 모델 경쟁 속도가 빨라지며 학습과 전환 부담이 커진다
- AI 변화 속도는 한 달이 1년, 2주가 1년처럼 느껴질 만큼 빨라졌다. 너무 많은 정보를 보며 인지적으로 소화하지 못하더라도, 중요한 자료의 인덱스는 남는다 [41:19]
- Simon Willison의 글은 4월을 변곡점으로 보는 근거가 된다. 여름에는 Anthropic Mythos급 모델, OpenAI의 대응 모델, Gemini 계열 모델이 다시 충돌할 가능성이 있다 [41:47]
23. 경쟁의 중심은 모델 성능에서 업무 해결 방식과 애플리케이션 층으로 이동한다
- 모델 자체에 대한 논의는 줄어들고 있다. 일정 수준 이상의 성능에 도달한 뒤에는 모델 진보를 관찰하는 일보다, 단위 업무를 가장 싸고 빠르게 해결하는 방법이 더 중요해진다 [43:07]
- 실제 성과는 모델 능력, harness 수준, 업무 정렬 방식이 어떻게 맞물리는지에 따라 달라진다. 판단의 초점도 AGI 여부보다 구체적인 작업 해결 구조로 이동한다 [43:25]
24. intelligence 수요는 과거 플랫폼보다 더 오래 확장될 수 있다
- 과거 모바일 인터넷의 성장 규모를 기준으로 AI의 정점을 판단하는 접근은 부정확할 수 있다. 이번 변화는 inflation adjusted된 더 큰 강도로 봐야 한다 [45:17]
- Vinod Khosla의 관점에서 AI가 기존 애플리케이션과 다른 이유는 intelligence 자체에 있다. intelligence에는 명확한 상한이 없기 때문에 수요도 계속 확장될 수 있다 [45:30]
25. IPO와 밸류에이션이 만드는 AI 기업 순위 경쟁
- IPO는 구조적 문제를 한 번에 해결하고, 특정 개인에게 의존하지 않은 채 회사 주도의 fundraising을 이어갈 수 있는 계기가 된다 [48:04]
- 밸류에이션 상승은 AI 기업 간 순위 경쟁으로 계속된다. 1위·2위·3위처럼 누가 앞서는지를 비교하는 leaderboard가 형성된다 [48:17]
26. 100회 특집 방향성과 에이전트 시대의 인프라 이해
- 100회, 3주년, 구독자 3만 명 돌파가 겹치면서 다음 회차는 평소처럼 넘기기보다 별도 주제를 준비하는 흐름이 생긴다 [48:54]
- Dwarkesh 에피소드에서 이어지는 학습선상에서 하드웨어를 왜 알아야 하는지, 현재 AI 경쟁 뒤의 기반 기술을 더 깊게 다루기 위해 게스트 섭외가 진행 중이다 [49:11]
🧾 결론
- Opus 4.8의 빠른 출시는 AI 산업이 더 이상 연간 계획이나 분기 계획만으로 따라가기 어려운 압축된 변화 속도에 들어섰다는 신호로 해석된다.
- 앞으로의 경쟁은 “가장 똑똑한 모델”만이 아니라, 주어진 업무를 가장 낮은 비용과 짧은 지연시간으로 안정적으로 끝내는 모델·하네스·오케스트레이션 조합에서 갈릴 가능성이 크다.
- Dynamic Workflows, code as harness, long-horizon task 사례들은 에이전트가 단순 챗봇을 넘어 장기 실행 업무 시스템으로 이동하고 있음을 보여준다.
- 인간의 일은 사라진다기보다 재배치된다. 사고 자체를 전부 AI에 넘기면 역량 저하가 생길 수 있지만, AI를 통해 더 넓은 문헌과 도구를 연결하는 사람은 문제 해결 범위를 확장할 수 있다.
- 검증이 필요한 전망으로는 Anthropic Mythos의 공개 시점, Google·OpenAI의 여름 모델 대응, OpenAI와 Anthropic의 IPO 가능성, 토큰 가격의 단기 상승 여부가 분리되어야 한다.
📈 투자·시사 포인트
- AI 인프라 수혜를 단순한 정점 신호로 보기보다, 과거 인터넷·모바일처럼 이후 플랫폼과 애플리케이션 계층이 본격화되는 초기 국면일 수 있다는 관점이 제시된다.
- NVIDIA, SK하이닉스, 삼성전자 같은 인프라 기업에 이어, 실제 업무를 해결하는 에이전트 애플리케이션과 오케스트레이션 계층의 중요성이 커질 수 있다.
- OpenAI와 Anthropic은 기업 고객이 이미 유료 사용과 API 비용을 감수하는 상태에 들어섰다는 점에서 제품-시장 적합성을 확보한 것으로 평가된다.
- 다만 기업 도입에서는 비용, 보안, 온프레미스 모델, 모델별 업무 배치, latency와 성능의 trade-off가 핵심 리스크로 남는다.
- 투자 관점에서 검증이 필요한 영역은 토큰 가격의 단기 방향, AI 사용량 증가가 실제 매출과 수익성으로 전환되는 속도, IPO 이후 밸류에이션이 성장의 시작인지 과열의 신호인지 여부다.
⚠️ 불확실하거나 확인이 필요한 부분
- Opus 4.8이 Opus 4.7 출시 43일 만에 나왔다는 일정과 “기존 70일 안팎”의 출시 주기 비교는 영상 내 설명에 근거하지만, 실제 공식 릴리스 날짜와 버전 명칭은 별도 확인이 필요하다.
- Anthropic의 Mythos Preview, 향후 Opus급 재편, 몇 주 내 전체 고객 제공 가능성은 영상에서 전망과 관측으로 제시된 내용이므로 공식 발표 여부를 분리해 확인해야 한다.
- Gemini 3.5 Flash, GPT-5.5, GPT-5.6, Codex 관련 성능·출시 타이밍·전략적 조정 가능성은 영상 내 해석과 추정이 섞여 있어, 실제 모델 라인업과 공개 일정은 검증이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- Opus 4.7과 Opus 4.8의 공식 출시일, 가격, 벤치마크, 모델 포지션 변화를 Anthropic 공식 자료 기준으로 확인하기
- Google Gemini 3.5 Flash와 향후 Pro 모델 관련 발표 내용을 Google I/O 및 공식 블로그 기준으로 정리하기
- Dynamic Workflows, Managed Agents, RLM, DSPy, TextGrad의 관계를 “에이전트 하네스/오케스트레이션 계보” 관점에서 별도 메모로 구조화하기
- 장기 실행 에이전트 설계에서 필요한 요소를 평가 함수, sandbox, subagent, deterministic harness, 비용 추적 항목으로 나눠 체크리스트화하기
❓ 열린 질문
- 프런티어 모델의 교체 주기가 40일 안팎으로 짧아질 경우, 기업은 모델 마이그레이션과 안정적 운영 사이의 균형을 어떻게 잡아야 할까?
- 일정 수준 이상의 모델 성능이 보편화되면, 경쟁 우위는 모델 선택보다 harness, workflow, 평가 시스템, 조직 맥락 데이터에서 더 크게 발생할까?
- AI가 인간의 사고 일부를 대체하거나 외주화할 때, 개인은 생산성 향상과 사고 근육 약화 사이에서 어떤 학습 습관을 유지해야 할까?