I Was About to Quit Claude — Then Opus 4.8 Dropped
Quick Summary
Claude를 포기하려던 불만의 핵심은 Opus 4.7의 작업 누락과 드리프트였고, Opus 4.8은 최소 초기 24시간 기준으로 그 약점을 크게 줄인 실전형 개선으로 평가된다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Claude를 포기하려던 불만의 핵심은 Opus 4.7의 작업 누락과 드리프트였고, Opus 4.8은 최소 초기 24시간 기준으로 그 약점을 크게 줄인 실전형 개선으로 평가된다.
📌 핵심 요점
- Opus 4.7은 큰 작업 안의 어려운 하위 과제를 “나중에 처리”하겠다고 미루고 실제로는 잊어버리는 문제가 반복돼, 글쓰기·콘텐츠 제작·소프트웨어 작업의 기반을 불안정하게 만들었다.
- 발표자는 새 모델을 벤치마크보다 실제 업무 흐름에 바로 투입해 평가하며, Opus 4.8도 뉴스레터·클라이언트 작업·제품 제작 등 기존 Claude 중심 워크플로우에서 약 24시간 사용한 체감 성능을 기준으로 판단했다.
- Opus 4.8은 어려운 부분을 즉시 처리하고, 컨텍스트와 메모리 파일을 더 잘 유지하며, 시스템 지시문·Claude.md·스킬 같은 기존 운영 체계를 더 안정적으로 따르는 것으로 묘사됐다.
- 글쓰기와 voice skill 측면에서는 본인·브랜드·클라이언트별 말투를 더 잘 반영해, Opus 4.7에서 자주 보이던 일반적인 AI 문체와 사용자 말투의 혼합이 줄어든 것으로 평가됐다.
- 퍼블리싱 워크플로우를 Claude skill로 재구축하거나 SaaS 플랫폼 기능을 제안·구현한 사례는 Opus 4.8이 단순 답변 도구보다 자율적 작업 파트너에 가까워지는 징후로 제시됐다.
🧩 배경과 문제 정의
- 이 영상은 Claude Opus 4.7에서 반복적으로 발생한 “어려운 하위 과제 회피” 문제를 출발점으로 삼는다.
- 발표자에게 Claude는 단순 보조 도구가 아니라 뉴스레터, 클라이언트 작업, 제품 제작까지 떠받치는 핵심 업무 인프라에 가깝다.
- 따라서 모델이 큰 작업 중 일부 핵심 과제를 미루거나 잊어버리면, 단순한 답변 품질 저하가 아니라 전체 산출물의 신뢰성과 운영 안정성 문제로 이어진다.
- Opus 4.8 평가는 공개 벤치마크나 공식 발표문 중심이 아니라, 출시 직후 약 24시간 동안 실제 업무 흐름에 바로 투입해 체감한 변화에 초점이 맞춰져 있다.
- 핵심 문제의식은 Opus 4.8이 4.7에서 약해졌던 하위 과제 처리, 기억 유지, 시스템 준수, 글쓰기 voice adherence, 자율적 실행 능력을 실제 운영 환경에서 회복했는지에 있다.
🕒 시간순 섹션별 상세정리
1. Opus 4.7의 반복 실패와 4.8 첫 체감 변화
- Opus 4.7은 큰 작업 안의 작은 하위 과제를 중요하다고 인식하면서도 “나중에 처리하자”는 식으로 미뤘고, 실제로는 다시 처리하지 않아 작업 기반에 구멍을 만들었다 [00:24]
- 이런 문제는 단발성 실수가 아니라 글쓰기 워크플로우, 콘텐츠 제작, 소프트웨어 빌드 전반에서 반복됐고, Claude 중심 운영을 접거나 다른 모델로 옮길 정도의 불만으로 이어졌다 [00:40]
2. 실제 업무에 바로 투입하는 모델 평가 방식
- 발표자의 전체 비즈니스는 뉴스레터, 클라이언트 작업, 제품 출시까지 Claude 하나에 크게 의존하며, 직원 없이 혼자 운영되는 구조다 [01:14]
- 새 Claude 모델이 나오면 블로그 글이나 공식 설명을 먼저 분석하기보다 Claude 앱을 업데이트하고, 기존 워크플로우 중간에 바로 넣어 A/B 테스트처럼 차이를 체감한다 [01:27]
3. 어려운 하위 과제 처리, 기억 유지, 자기 점검의 개선
- Opus 4.7은 어려운 하위 과제를 조용히 제외하거나 잊어버리는 경향이 있었고, 그 결과 최종 산출물이 불안정하거나 요구와 다른 품질로 끝나는 일이 잦았다 [02:03]
- Opus 4.8은 필요한 부분을 그 자리에서 처리하는 쪽으로 개선됐고, 나중에 기억해야 할 내용도 별도 지시 없이 더 잘 유지하며 컨텍스트와 메모리 파일을 관리하는 모습을 보였다 [02:51]
4. 확신에 찬 오류 리스크와 시스템 준수의 중요성
- 운영 관점에서 가장 위험한 실패는 단순한 오답보다 확신에 찬 오답이며, 이런 오류는 세 단계 뒤에서야 발견될 수 있어 비전문 사용자에게 더 큰 위험이 된다 [04:13]
- Opus 4.8은 약한 부분을 숨기기보다 스스로 드러내는 쪽에 가까워졌고, 운영자는 그 신호를 바탕으로 워크플로우 안에 신뢰 가능한 검토 지점을 만들 수 있다 [04:48]
5. 퍼블리싱 워크플로우를 Claude skill로 재구축한 사례
- 영상 제작용 퍼블리싱 시스템은 리서치와 주제를 바탕으로 비디오 브리프, 발표자 말투에 맞춘 트랜스크립트, HTML 프레젠테이션, 썸네일, Substack용 텍스트까지 생성하는 흐름이다 [06:16]
- Opus 4.8은 전체 SOP와 워크플로우를 받아 설계 문서를 만들고, 이를 매번 호출 가능한 Claude skill로 변환해 반복 가능한 제작 시스템으로 만들었다 [06:47]
6. voice skill 품질, 벤치마크 한계, 자율적 제안의 징후
- Opus 4.8은 글쓰기 품질과 voice adherence가 크게 좋아졌고, 개인 콘텐츠, CEO 고스트라이팅, 출판물, 브랜드 마케팅 자료처럼 각각 다른 voice skill을 더 가깝게 따르는 모습을 보였다 [08:41]
- Opus 4.7은 결과물이 본인 말투와 일반적인 AI 문체가 섞이는 경우가 많아 추가 손질이 필요했지만, Opus 4.8은 훨씬 적은 수정으로 본인, 브랜드, 클라이언트의 톤에 가까운 결과를 냈다 [09:26]
7. 자율적으로 기능을 제안하고 구현한 Opus 4.8
- Opus 4.8은 기존 대화 주제와 이미 배포된 SaaS 플랫폼·커뮤니티를 연결해, Cohere Writer System 로고 라이브러리 멤버 기능과 영상으로 확장할 수 있는 기능 제안을 만들어냈다 [12:04]
- 사용자가 제안을 승인하자 Opus 4.8은 별도 세부 지시 없이 해당 플랫폼 기능을 독립적으로 구현했고, 사용자가 다른 작업을 하는 동안 전체 기능을 한 번에 완성했다 [12:29]
8. 동적 워크플로와 Opus 4.8에 대한 초기 결론
- Claude Code의 동적 워크플로는 큰 작업을 수백 개의 하위 에이전트로 나눠 병렬 실행할 수 있어, 대규모 코드베이스와 복잡한 개발 작업에서 강한 잠재력을 가진다 [13:46]
- 이 기능은 현재 발표자의 워크플로에 직접 적용된 상태는 아니지만, 개발자 중심의 대형 작업 분산 기능으로서 앞으로 활용 지점과 실전 효용을 따져볼 필요가 있다 [14:03]
- 제공된 section-detail 기준으로는 14:03 이후 종료부의 구체 발화가 충분히 분리되어 있지 않으므로, 영상 말미의 추가 결론이나 마무리 문장이 있는지는 원문 transcript 확인이 필요하다 [16:04]
🧾 결론
- Opus 4.8에 대한 영상의 핵심 평가는 “벤치마크가 올랐다”보다 “실제 업무에서 이전보다 덜 놓치고, 더 잘 기억하고, 더 안정적으로 따른다”에 가깝다.
- 발표자가 가장 크게 체감한 변화는 어려운 하위 과제를 회피하거나 잊는 문제가 줄었다는 점이며, 이는 장기 워크플로우를 Claude에 의존하는 사용자에게 신뢰성 개선으로 이어진다.
- 확신에 찬 오류보다 약점을 드러내는 방향의 변화는 운영자가 검토 지점과 안전장치를 만들기 쉽게 해, 모델을 업무 시스템 안에 넣는 데 중요한 개선으로 해석된다.
- 다만 검증 필요: 사용 기간이 약 24시간에 불과하므로, 3주 이상 사용했을 때도 같은 안정성·품질·시스템 준수력이 유지되는지는 아직 결론 내릴 수 없다.
- Claude Code의 동적 워크플로처럼 대규모 작업 분산 기능은 잠재력이 언급됐지만, 발표자 본인의 핵심 워크플로우에 직접 적용된 성과로 제시되지는 않았다.
📈 투자·시사 포인트
- AI 모델 경쟁에서 중요한 차별점은 단순 추론 점수보다 실제 업무 흐름에서의 누락 감소, 지시 준수, 장기 컨텍스트 유지, 말투 반영 같은 운영 품질로 이동하고 있다.
- 가격이 이전 모델과 같다는 전제에서는, Opus 4.8처럼 같은 비용으로 더 높은 완성도와 낮은 수정 부담을 제공하는 모델이 고빈도 업무 사용자에게 전환 가치를 만들 수 있다.
- 1인 사업자나 소규모 팀처럼 AI 의존도가 높은 사용자일수록 작은 모델 드리프트가 생산성·품질·신뢰성 리스크로 이어지므로, 모델 선택 기준은 “가장 똑똑한가”보다 “내 워크플로우를 안정적으로 끝까지 수행하는가”가 된다.
- voice skill과 퍼블리싱 skill 사례는 AI가 반복 콘텐츠 제작, 클라이언트별 문체 유지, 운영 SOP 자동화 영역에서 더 깊게 쓰일 가능성을 보여준다.
- 검증 필요: 자율적 제안과 기능 구현 사례는 인상적이지만, 모든 사용자 환경에서 재현되는 일반 성능인지, 특정 대화 맥락과 도구 환경에서 나온 사례인지는 추가 확인이 필요하다.
⚠️ 불확실하거나 확인이 필요한 부분
- Opus 4.8에 대한 평가는 출시 직후 약 24시간 동안의 사용 경험에 기반하므로, 장기 안정성이나 3주 이상 사용 후 성능 유지 여부는 아직 확인이 필요하다.
- Opus 4.7에서 반복됐다는 “어려운 하위 과제 미루기·망각” 문제와 4.8에서의 개선은 발표자의 실제 업무 체감에 근거한 사례이며, 통제된 비교 실험 결과로 단정하기는 어렵다.
- misaligned behavior 감소, high effort 기본값, 코딩 성능 및 토큰 사용량 관련 언급은 Anthropic 자료를 바탕으로 설명됐지만, 실제 수치와 조건은 원문 자료로 별도 검증이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 자신의 실제 업무 워크플로우에서 Opus 4.8을 바로 투입하되, 큰 작업 안의 하위 과제 누락 여부를 별도 체크리스트로 기록한다.
- Claude.md, 시스템 지시문, 컨텍스트 파일, skill을 사용하는 작업에서 지시 준수율과 드리프트 발생 시점을 최소 1~3주 동안 추적한다.
- 글쓰기·콘텐츠 제작·코딩 작업별로 Opus 4.8의 산출물을 기존 모델 결과와 비교해 수정량, 누락 항목, 톤 일치도를 평가한다.
- Anthropic 공식 자료에서 Opus 4.8의 벤치마크, 가격, effort 설정, misaligned behavior 관련 설명을 원문 기준으로 확인한다.
❓ 열린 질문
- Opus 4.8의 개선된 체감 성능은 3주 이상 사용 후에도 유지될까, 아니면 이전 모델처럼 시간이 지나며 드리프트가 다시 나타날까?
- Opus 4.8이 어려운 하위 과제를 미루지 않는다는 장점은 대규모 코드베이스나 장기 프로젝트에서도 일관되게 유지될까?
- suggested task처럼 모델이 먼저 기능을 제안하는 흐름은 생산성을 높이는가, 아니면 잘못된 방향의 자동화를 늘릴 위험이 더 큰가?