YouTube노정석·2026년 6월 7일·0

EP 99. Opus 4.8 출시, 요즘 AI 경쟁과 인간의 일

Quick Summary

Opus 4.8 출시는 AI 경쟁의 속도가 모델 성능 싸움을 넘어 비용·지연시간·에이전트 워크플로·인간의 일 재정의로 이동하고 있음을 보여준다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

EP 99. Opus 4.8 출시, 요즘 AI 경쟁과 인간의 일 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

EP 99. Opus 4.8 출시, 요즘 AI 경쟁과 인간의 일 내용을 설명하는 본문 이미지

💡 한 줄 결론

Opus 4.8 출시는 AI 경쟁의 속도가 모델 성능 싸움을 넘어 비용·지연시간·에이전트 워크플로·인간의 일 재정의로 이동하고 있음을 보여준다.

📌 핵심 요점

  1. Opus 4.8은 Opus 4.7 이후 43일 만에 등장하며, 프런티어 모델의 교체 주기가 기존의 두 달 안팎보다 더 짧아질 수 있음을 보여준다.
  2. 모델 경쟁의 중심은 단순 벤치마크 점수보다 비용, latency, 토큰 경제성, 충분한 품질을 더 빠르고 싸게 제공하는 능력으로 이동하고 있다.
  3. Google의 Gemini 3.5 Flash, Anthropic의 Dynamic Workflows, OpenAI의 Codex 계열 흐름은 장기 작업을 에이전트·하네스·서브에이전트 구조로 처리하는 방향을 강화한다.
  4. AI 활용은 인간의 창의성을 단순히 대체하기보다, 인간이 사고하고 배우고 문제를 푸는 지형을 바꾸며, 어떤 사람에게는 능력 확장으로, 어떤 사람에게는 사고 근육 약화로 작동할 수 있다.
  5. 기업 업무에서는 개발자와 비개발자의 경계가 흐려지고, 중요한 역량이 코드 작성 자체보다 고객 문제를 이해하고 AI 도구·워크플로·암묵지를 활용해 해결하는 능력으로 옮겨가고 있다.

🧩 배경과 문제 정의

  • Opus 4.8이 Opus 4.7 출시 43일 만에 공개되면서, 프런티어 모델의 교체 주기가 기존의 “두 달 단위”보다 더 짧아지고 있다.
  • AI 모델 경쟁은 단순한 성능 향상을 넘어 비용, 지연시간, 토큰 경제성, 제품화 속도를 함께 압박하는 국면으로 바뀌고 있다.
  • Google, Anthropic, OpenAI가 여름 전후로 새 모델과 에이전트 워크플로를 준비하면서, 기업의 업무 방식도 메일·문서 중심에서 에이전트 애플리케이션 중심으로 이동하고 있다.

🕒 시간순 섹션별 상세정리

1. Opus 4.8의 빠른 출시와 두 달 주기의 붕괴

  • Google I/O와 Opus 새 버전 출시가 잇따르며, AI 제품 환경은 불과 몇 주 사이 다시 크게 달라졌다 [01:02]
  • Opus 4.7은 4월 16일 공개됐고, Opus 4.8은 43일 만에 출시되면서 기존 70일 안팎의 업데이트 주기보다 훨씬 빨라졌다 [01:17]

2. 싱귤래리티식 가속과 Anthropic의 다음 모델 예고

  • 기술 발전이 특정 지점 이후 폭발적으로 빨라진다는 싱귤래리티 관점에서 보면, Opus 4.8의 짧은 출시 간격은 가속의 신호처럼 보인다 [02:43]
  • Anthropic은 Opus 4.8이 이전 모델보다 작지만 체감 가능한 개선을 제공한다고 설명하며, 같은 역량을 더 낮은 비용으로 제공하는 모델도 준비 중이라고 밝혔다 [03:14]

3. 여름을 앞둔 Google·Anthropic·OpenAI의 모델 경쟁

  • Opus 4.8이 5월 말에 이미 나온 만큼, 이 빨라진 흐름을 적용하면 7월이나 8월에도 또 한 번 큰 변화가 나타날 가능성이 커진다 [04:49]
  • Google I/O에서는 Gemini 3.5 Flash가 중심이었고 Pro는 아직 준비되지 않았지만, 몇 주 뒤 다음 모델 공개 가능성이 암시되며 여름 전후 경쟁 구도가 맞물린다 [05:22]

4. 모델 성능보다 비용·지연시간·업무 적용성이 핵심 변수로 부상

  • Opus 4.8은 Opus 4.7이나 4.6보다 더 작고 효율적인 모델이지만, 외부 벤치마크와 사용자 반응에서는 뚜렷한 성능 저하가 드러나지 않는다 [06:29]
  • 일부 벤치마크는 Opus 4.7보다 낮고 일부는 높게 나타나며, 모델 경쟁의 초점은 단순 점수 상승보다 토큰 경제성 안에서 실질적으로 살아남는 문제로 옮겨간다 [06:51]

5. Gemini 3.5 Flash와 장기 작업 에이전트 데모

  • Google이 Flash 모델을 전면에 내세운 배경에는 충분한 품질과 낮은 지연시간을 동시에 만족하는 “빠르고 좋은” 모델 수요가 있다 [08:21]
  • Varun Mohan의 데모에서는 93개 subagent와 1만 5천 회 이상의 model call을 사용해 custom kernel, filesystem, driver를 처음부터 만들고, 12시간 뒤 Doom을 실행했다 [08:44]

6. Anthropic Dynamic Workflows와 결정적 오케스트레이션 구조

  • Opus 4.8과 함께 Dynamic Workflows가 등장했고, Claude가 checklist를 처리한 뒤 push와 merge까지 수행하는 앱형 작업 흐름이 시연됐다 [10:00]
  • Claude 관련 영상은 UI와 연출이 화려하지만, 실제 핵심은 여러 작업 단계를 자동으로 수행하는 애플리케이션 제작과 코드 변경 흐름에 있다 [10:21]

7. Dynamic Workflows와 하네스 기반 제어

  • Dynamic Workflows는 모델이 모든 분기점을 매번 읽고 판단하는 방식이라기보다, 초기에 동적 하네스나 스크립트를 만들어 서브에이전트 조율을 맡기는 구조에 가깝다 [12:10]
  • 모델이 자기 작업을 직접 평가하게 두면 어려운 과제에서 완료를 과장할 수 있으므로, 실행 횟수와 품질을 조이려면 결정적 도구와 코드 기반 검사가 필요하다 [12:44]

8. 기존 연구와 RLM·DSPy로 이어지는 계보

  • Dynamic Workflows에 대해 “이미 있던 개념”이라는 반응이 많고, oh-my-openagent나 OMX 같은 프로젝트에서도 유사한 개념은 이미 작동해 왔다 [13:36]
  • Managed Agents 논의에서는 “뇌와 손의 분리”처럼 컨텍스트를 REPL 외부의 객체로 다루고, LLM이 결정적 도구를 통해 프로그래밍 방식으로 작업을 수행하는 흐름이 나타난다 [14:04]

9. 메타 최적화와 long-horizon task의 실제 구조

  • DSPy, TextGrad, RLM 계열은 모두 한 단계 위 레이어에서 최적화를 수행하는 meta optimization으로 볼 수 있으며, 프롬프트 성능도 메타 옵티마이저를 통해 개선할 수 있다 [15:40]
  • 평가 지표가 있는 문제라면 모델과 컴퓨팅을 검색·최적화에 투입해 성능을 끌어올릴 수 있고, Karpathy의 auto research 개념도 같은 핵심을 공유한다 [16:15]

10. Code as harness와 클라우드형 에이전트 실행 환경

  • 수학에서도 가설을 세우고 실험하며, 오류를 기록한 뒤 다음 가설로 이어가는 반복 구조가 나타난다. 모델의 objective만 달라질 뿐 방법론은 같은 메타 최적화에 가깝다 [18:02]
  • “code as harness”는 에이전트 실행을 코드로 견고하게 묶는 방향을 잘 드러내며, Cloudflare Dynamic Workflows와 Project Think도 같은 문제의식 위에 놓인다 [18:27]

11. 개인 실험과 토큰 비용이 드러낸 실행 현실

  • Minecraft 에이전트 실험에서는 1년 전과 달리 환경 변화가 크게 체감됐고, 10시간짜리 작업을 밤새 돌린 뒤 아침에 결과물이 나온 듯한 상태가 확인된다 [19:52]
  • 최신 Minecraft 버전에서는 Mineflayer 계열 오픈소스가 충분히 따라오지 못해, 프로토콜 추정과 block ID 추출부터 바닥에서 쌓아 에이전트 환경을 구성했다 [20:06]

12. 수학 문제 해결과 인간-AI 협업의 재구성

  • OpenAI뿐 아니라 Anthropic의 Mythos와 Gemini도 비슷한 성과를 냈다는 소식이 이어지며, 여러 조직이 수학 문제 해결에서 유사한 접근에 도달했음을 보여준다 [21:15]
  • Noam Brown은 AlphaGo 이후 인간 바둑 기사들의 실력이 뚜렷하게 올라간 것처럼, 수학에서도 AI 이후 인간 연구자의 수준과 탐색 방식이 달라질 수 있다고 본다 [21:59]

13. 창의성의 소멸보다 지형 변화가 핵심이다

  • AI는 서로 다른 문헌과 개념을 연결하는 능력을 보여주며, 인간도 그 연결 방식을 학습해 다른 영역으로 전이할 가능성을 갖게 된다 [24:02]
  • 중요한 변화는 모델과의 대화 자체가 아니라, 인간의 창의성이 사라지는 것이 아니라 창의적 사고가 발생하는 지형이 바뀐다는 점이다 [24:27]

14. AI는 격차를 줄이면서 동시에 벌리는 도구가 된다

  • AI에는 intelligence augmentation과 amplification 효과가 분명히 있으며, 동시에 기술이 다시 격차를 벌리는 도구로 작동할 수 있다는 긴장도 생긴다 [25:17]
  • 초지능이나 AGI에 가까워질수록 기회가 넓어지고 격차가 얇아질 것이라는 기대와 달리, 실제 사용에서는 도파민을 자극하는 slot machine 같은 측면도 드러난다 [25:31]

15. 일의 기준은 사고 근육에서 새로운 자격과 능력으로 이동한다

  • 과거에는 흙을 얼마나 옮기는지가 체력과 기술의 능력값이었지만, 굴착기와 로더가 등장한 뒤에는 장비를 다루는 자격과 면허가 핵심이 됐다 [26:21]
  • 지식 산업에서도 과거에는 사고 근육으로 문제를 해결했지만, AI 이후에는 다른 층위의 자격과 능력이 더 중요해질 가능성이 커진다 [26:50]

16. OpenAI와 Anthropic은 기업 lock-in과 유료 사용으로 PMF를 확보한다

  • OpenAI는 703개, Anthropic은 390개의 공개 채용을 내걸었고, 기업 고객은 이미 API 비용을 지불하며 AI 사용을 중단하기 어려운 상태에 들어섰다 [27:44]
  • 1인당 100달러나 200달러 플랜이 엔지니어뿐 아니라 비엔지니어에게도 확산되며, Claude Code 같은 도구가 조직 전반의 기본 업무 도구로 자리 잡아간다 [28:18]

17. 토큰 수요와 AI 채용은 확장 국면과 정체론이 충돌한다

  • 토큰 가격은 단기적으로 상승 여지가 있고, 메모리 가격 상승도 AI 수요가 계속 늘고 있음을 뒷받침한다 [29:11]
  • 외부 투자 관점에서는 이미 쓸 사람은 다 썼고 plateau에 도달했다는 해석이 나오지만, 기술 업계 내부에서는 아직 시작 단계라는 감각이 강하다 [29:29]

18. 개발자는 코드 작성자보다 고객 문제 해결자로 재정의된다

  • Claude Code를 다루는 사람은 새로운 층위의 problem solver가 되고, 실제 엔지니어는 코드 작성보다 AWS, 웹서버, Redis, DB, OS, 아키텍처 전반을 이해할 때 더 강해진다 [32:19]
  • 고객이 구매하는 것은 아키텍처가 아니라 자기 문제의 해결이며, 앱 제작 과정이 빨라져도 고객을 확보하고 실제 문제를 푸는 구간은 여전히 남는다 [33:17]

19. 전통적 엔지니어 경계가 문제 해결형 인재로 확장된다

  • 모든 사람이 문제 해결자이자 단위 비즈니스 운영자로 정의되는 편이 더 정확하며, 회사 안에서도 Claude Code 사용 이후 전통적 엔지니어 출신과 비엔지니어 출신이 함께 엔지니어링 업무를 수행한다 [36:03]
  • 마케팅, PM 출신 인력도 엔지니어들이 만든 암묵지를 프롬프트와 skill 형태로 호출하면서 여러 문제를 한 번에 해결하는 경험을 얻고, 인력 개념 자체가 바뀐다 [36:24]

20. AI 활용 인재 수요와 엔지니어 역할이 동시에 재배치된다

  • 인간이 할 일은 오히려 늘어날 수 있다. 사람들이 문제를 만들어내는 속도가 문제를 해결하는 속도보다 빠르기 때문에, AI를 활용해 문제를 푸는 수요도 크게 커질 수 있다 [37:57]
  • 전통적 엔지니어 역할은 더 낮은 계층으로 이동해 inference 속도 개선, 고급 token engineering, infrastructure engineering, model building 같은 영역으로 재배치될 가능성이 있다 [38:12]

21. 엔터프라이즈 AI 도입은 비용·보안·모델 배치 문제로 바뀐다

  • 4월은 큰 변곡점으로 인식된다. 연구소 투자는 계속되고 있지만 지속 가능 기간은 불확실하며, API 매출의 중요성은 상대적으로 낮아지는 흐름이 나타난다 [39:18]
  • 대형 기업, 은행, 초대형 IP를 보유한 회사는 Claude Code를 그대로 쓰기 어렵다. 대신 Claude Code harness에 Qwen이나 GLM 같은 로컬 모델을 연결하는 온프레미스 수요가 커질 수 있다 [39:46]

22. 모델 경쟁 속도가 빨라지며 학습과 전환 부담이 커진다

  • AI 변화 속도는 한 달이 1년, 2주가 1년처럼 느껴질 만큼 빨라졌다. 너무 많은 정보를 보며 인지적으로 소화하지 못하더라도, 중요한 자료의 인덱스는 남는다 [41:19]
  • Simon Willison의 글은 4월을 변곡점으로 보는 근거가 된다. 여름에는 Anthropic Mythos급 모델, OpenAI의 대응 모델, Gemini 계열 모델이 다시 충돌할 가능성이 있다 [41:47]

23. 경쟁의 중심은 모델 성능에서 업무 해결 방식과 애플리케이션 층으로 이동한다

  • 모델 자체에 대한 논의는 줄어들고 있다. 일정 수준 이상의 성능에 도달한 뒤에는 모델 진보를 관찰하는 일보다, 단위 업무를 가장 싸고 빠르게 해결하는 방법이 더 중요해진다 [43:07]
  • 실제 성과는 모델 능력, harness 수준, 업무 정렬 방식이 어떻게 맞물리는지에 따라 달라진다. 판단의 초점도 AGI 여부보다 구체적인 작업 해결 구조로 이동한다 [43:25]

24. intelligence 수요는 과거 플랫폼보다 더 오래 확장될 수 있다

  • 과거 모바일 인터넷의 성장 규모를 기준으로 AI의 정점을 판단하는 접근은 부정확할 수 있다. 이번 변화는 inflation adjusted된 더 큰 강도로 봐야 한다 [45:17]
  • Vinod Khosla의 관점에서 AI가 기존 애플리케이션과 다른 이유는 intelligence 자체에 있다. intelligence에는 명확한 상한이 없기 때문에 수요도 계속 확장될 수 있다 [45:30]

25. IPO와 밸류에이션이 만드는 AI 기업 순위 경쟁

  • IPO는 구조적 문제를 한 번에 해결하고, 특정 개인에게 의존하지 않은 채 회사 주도의 fundraising을 이어갈 수 있는 계기가 된다 [48:04]
  • 밸류에이션 상승은 AI 기업 간 순위 경쟁으로 계속된다. 1위·2위·3위처럼 누가 앞서는지를 비교하는 leaderboard가 형성된다 [48:17]

26. 100회 특집 방향성과 에이전트 시대의 인프라 이해

  • 100회, 3주년, 구독자 3만 명 돌파가 겹치면서 다음 회차는 평소처럼 넘기기보다 별도 주제를 준비하는 흐름이 생긴다 [48:54]
  • Dwarkesh 에피소드에서 이어지는 학습선상에서 하드웨어를 왜 알아야 하는지, 현재 AI 경쟁 뒤의 기반 기술을 더 깊게 다루기 위해 게스트 섭외가 진행 중이다 [49:11]

🧾 결론

  • Opus 4.8의 빠른 출시는 AI 산업이 더 이상 연간 계획이나 분기 계획만으로 따라가기 어려운 압축된 변화 속도에 들어섰다는 신호로 해석된다.
  • 앞으로의 경쟁은 “가장 똑똑한 모델”만이 아니라, 주어진 업무를 가장 낮은 비용과 짧은 지연시간으로 안정적으로 끝내는 모델·하네스·오케스트레이션 조합에서 갈릴 가능성이 크다.
  • Dynamic Workflows, code as harness, long-horizon task 사례들은 에이전트가 단순 챗봇을 넘어 장기 실행 업무 시스템으로 이동하고 있음을 보여준다.
  • 인간의 일은 사라진다기보다 재배치된다. 사고 자체를 전부 AI에 넘기면 역량 저하가 생길 수 있지만, AI를 통해 더 넓은 문헌과 도구를 연결하는 사람은 문제 해결 범위를 확장할 수 있다.
  • 검증이 필요한 전망으로는 Anthropic Mythos의 공개 시점, Google·OpenAI의 여름 모델 대응, OpenAI와 Anthropic의 IPO 가능성, 토큰 가격의 단기 상승 여부가 분리되어야 한다.

📈 투자·시사 포인트

  • AI 인프라 수혜를 단순한 정점 신호로 보기보다, 과거 인터넷·모바일처럼 이후 플랫폼과 애플리케이션 계층이 본격화되는 초기 국면일 수 있다는 관점이 제시된다.
  • NVIDIA, SK하이닉스, 삼성전자 같은 인프라 기업에 이어, 실제 업무를 해결하는 에이전트 애플리케이션과 오케스트레이션 계층의 중요성이 커질 수 있다.
  • OpenAI와 Anthropic은 기업 고객이 이미 유료 사용과 API 비용을 감수하는 상태에 들어섰다는 점에서 제품-시장 적합성을 확보한 것으로 평가된다.
  • 다만 기업 도입에서는 비용, 보안, 온프레미스 모델, 모델별 업무 배치, latency와 성능의 trade-off가 핵심 리스크로 남는다.
  • 투자 관점에서 검증이 필요한 영역은 토큰 가격의 단기 방향, AI 사용량 증가가 실제 매출과 수익성으로 전환되는 속도, IPO 이후 밸류에이션이 성장의 시작인지 과열의 신호인지 여부다.

⚠️ 불확실하거나 확인이 필요한 부분

  • Opus 4.8이 Opus 4.7 출시 43일 만에 나왔다는 일정과 “기존 70일 안팎”의 출시 주기 비교는 영상 내 설명에 근거하지만, 실제 공식 릴리스 날짜와 버전 명칭은 별도 확인이 필요하다.
  • Anthropic의 Mythos Preview, 향후 Opus급 재편, 몇 주 내 전체 고객 제공 가능성은 영상에서 전망과 관측으로 제시된 내용이므로 공식 발표 여부를 분리해 확인해야 한다.
  • Gemini 3.5 Flash, GPT-5.5, GPT-5.6, Codex 관련 성능·출시 타이밍·전략적 조정 가능성은 영상 내 해석과 추정이 섞여 있어, 실제 모델 라인업과 공개 일정은 검증이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • Opus 4.7과 Opus 4.8의 공식 출시일, 가격, 벤치마크, 모델 포지션 변화를 Anthropic 공식 자료 기준으로 확인하기
  • Google Gemini 3.5 Flash와 향후 Pro 모델 관련 발표 내용을 Google I/O 및 공식 블로그 기준으로 정리하기
  • Dynamic Workflows, Managed Agents, RLM, DSPy, TextGrad의 관계를 “에이전트 하네스/오케스트레이션 계보” 관점에서 별도 메모로 구조화하기
  • 장기 실행 에이전트 설계에서 필요한 요소를 평가 함수, sandbox, subagent, deterministic harness, 비용 추적 항목으로 나눠 체크리스트화하기

❓ 열린 질문

  • 프런티어 모델의 교체 주기가 40일 안팎으로 짧아질 경우, 기업은 모델 마이그레이션과 안정적 운영 사이의 균형을 어떻게 잡아야 할까?
  • 일정 수준 이상의 모델 성능이 보편화되면, 경쟁 우위는 모델 선택보다 harness, workflow, 평가 시스템, 조직 맥락 데이터에서 더 크게 발생할까?
  • AI가 인간의 사고 일부를 대체하거나 외주화할 때, 개인은 생산성 향상과 사고 근육 약화 사이에서 어떤 학습 습관을 유지해야 할까?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.