YouTubeZubair Trabzada·2026년 7월 1일·

I Made Opus 4.8 and Sonnet 5 Build the Same Apps (RAW RESULTS)

Quick Summary

Opus 4.8과 Sonnet 5로 같은 앱을 만든 RAW RESULTS의 핵심은 품질 격차보다 비용 효율 차이가 더 크게 드러났다는 점이다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

I Made Opus 4.8 and Sonnet 5 Build the Same Apps (RAW RESULTS) 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

I Made Opus 4.8 and Sonnet 5 Build the Same Apps (RAW RESULTS) 내용을 설명하는 본문 이미지

💡 한 줄 결론

Opus 4.8과 Sonnet 5로 같은 앱을 만든 RAW RESULTS의 핵심은 품질 격차보다 비용 효율 차이가 더 크게 드러났다는 점이다.

📌 핵심 요점

  1. 실험은 포트폴리오 웹사이트, 개인 예산 앱 Budget Flow, 타워 디펜스 게임 Castle Defense를 동일 프롬프트·동일 스택·원샷 조건으로 만들게 한 뒤 결과물을 비교하는 방식으로 진행됐다.
  2. 포트폴리오 웹사이트에서는 Opus 4.8이 어두운 테마, 더 구조화된 about 영역, 가격 정보가 포함된 서비스 카드 등에서 근소하게 더 정돈된 결과를 보였다.
  3. Budget Flow 앱에서는 두 모델 모두 수입·지출 입력, 대시보드 합계, 로컬 저장, 저축 목표, 검색·필터 기능을 구현해 실질적 차이가 거의 드러나지 않았다.
  4. Castle Defense 게임에서도 생명·골드·웨이브·방어자 배치·업그레이드·활동 로그·패배 화면 등 복잡한 기능 묶음을 두 모델 모두 유사한 수준으로 구현했다.
  5. 최종 판단은 Opus 4.8이 일부 디자인·완성도에서 앞설 수 있지만, 대부분의 사용자에게는 Sonnet 5가 더 낮은 비용과 비슷한 결과물 때문에 현실적인 선택이라는 쪽으로 기운다.

🧩 배경과 문제 정의

  • Sonnet 5 출시 이후, 더 비싼 Claude Opus 4.8이 실제 앱 제작에서도 비용 대비 우위를 보이는지가 핵심 쟁점이다.
  • 벤치마크 수치만으로는 결과물의 차이를 판단하기 어렵기 때문에, 동일 프롬프트·동일 스택·원샷 조건에서 직접 비교하는 방식이 필요하다.
  • 비교 과제는 포트폴리오 웹사이트, 개인 예산 웹앱, 브라우저 타워 디펜스 게임으로 구성된다.
  • 판단 기준은 디자인 완성도, 기능 충실도, 상호작용, 복잡한 로직 처리, 가격 대비 효율이다.

🕒 시간순 섹션별 상세정리

1. 비교 실험의 조건과 첫 번째 과제 설정

  • Sonnet 5 출시 직후, Opus 4.8이 더 높은 비용을 감수할 만큼 우수한지가 핵심 비교 지점으로 드러난다. [00:44]
  • 단순 벤치마크가 아니라, 같은 프롬프트로 실제 제작물 세 가지를 만들고 결과물을 직접 비교하는 방식이 선택된다. [00:59]

2. 성능과 가격 차이가 비용 대비 판단의 핵심으로 부상

  • Sonnet 5는 agentic coding, multi-disciplinary reasoning, knowledge work 영역에서 Opus 4.8에 가까운 성능을 보인다. [02:34]
  • agentic coding 점수는 Sonnet 5가 63.2%, Opus 4.8이 69.2%로, 수치상 격차가 크지 않다. [02:53]

3. Sonnet 5 포트폴리오 결과의 완성도와 결점

  • Sonnet 5 결과물은 localhost 5180에서 실행되며, Alex Morgan 포트폴리오의 첫 화면은 깔끔하고 프리미엄한 인상을 준다. [04:18]
  • hero 영역에는 “start a project”, “view my work” 버튼과 움직이는 카드가 배치되지만, 우측 “AM” 표시는 실제 이미지보다 대체 요소처럼 보인다. [04:42]

4. Opus 4.8 동일 조건 실행과 고토큰 사용 맥락

  • 동일한 포트폴리오 프롬프트가 Opus 4.8 extra effort 세션에도 그대로 입력된다. [06:38]
  • Vite, React, Tailwind 기반 조건 역시 Sonnet 5 실험과 동일하게 유지된다. [06:53]

5. Opus 4.8 결과의 어두운 테마와 정돈된 구성

  • Opus 4.8 결과물은 Sonnet 5보다 어두운 배경과 다른 폰트 분위기를 선택한다. [08:46]
  • hero 우측에는 움직이는 카드 애니메이션과 경력, 프로젝트, 고객 수 지표가 함께 배치된다. [09:01]

6. 첫 과제 비교 판단과 세부 완성도 차이

  • 두 포트폴리오는 색상과 테마는 다르지만 카드 구성과 전체 레이아웃에서는 큰 차이가 없다. [10:33]
  • 첫 화면 기준으로는 두 모델의 결과물 격차가 제한적으로 보인다. [10:48]

7. 첫 번째 테스트 마무리와 두 모델의 디자인 차이

  • Opus 4.8은 후기 카드와 연락처 영역에서 색상 활용과 카드 구성이 더 풍부하고 정돈돼 보인다. [12:01]
  • Sonnet 5는 상대적으로 단순하지만 깔끔한 결과물을 만든다. [12:16]

8. Budget Flow 테스트의 요구사항과 Sonnet 5 실행

  • 두 번째 테스트는 개인 예산 웹앱인 Budget Flow 제작 과제로 전환된다. [13:33]
  • 요구사항은 수입·지출 입력, 대시보드 합계, 거래 검색·필터, 저축 목표, 소비 차트, 데이터 유지 기능이다. [13:48]

9. Sonnet 5 앱의 거래 입력과 초기 기능 확인

  • Sonnet 5 결과물은 총수입과 지출이 모두 0인 초기 대시보드에서 시작한다. [15:57]
  • 거래 탭에서는 지출 또는 수입을 이름, 금액, 카테고리, 메모와 함께 추가할 수 있다. [16:12]

10. Sonnet 5 앱의 저장 유지, 차트, 저축 목표, 검색 검증

  • 새로고침 후에도 총수입 1,500달러, 지출 389달러, 잔액 1,111달러가 유지된다. [17:56]
  • 소비 카테고리 차트와 수입 대비 지출 시각화도 그대로 남아 데이터 유지가 확인된다. [18:11]

11. Opus 4.8 앱 생성과 거래·대시보드 기능 확인

  • 같은 Budget Flow 프롬프트가 Opus 4.8에도 적용되고, 결과물은 localhost 5187에서 실행된다. [20:02]
  • UI는 대시보드, 거래, 저축 탭으로 구성되며 Sonnet 5와 거의 비슷한 형태를 보인다. [20:17]

12. Opus 4.8 앱의 저축 목표와 검색·필터 확인

  • Opus 4.8의 저축 탭에서는 emergency fund 목표가 12,000달러로 설정된다. [23:00]
  • 3,000달러, 1,500달러, 300달러가 추가되며 저축 진행 상태가 대시보드에 반영된다. [23:15]

13. 웹앱 비교 이후 복잡한 게임 과제로 전환

  • Budget Flow 웹앱에서는 Opus 4.8과 Sonnet 5가 화면 구성과 동작 면에서 거의 동일한 결과를 보인다. [24:00]
  • 두 결과물의 차이가 크게 드러나지 않자, 더 복잡한 세 번째 테스트로 넘어간다. [24:15]

14. Sonnet 5에 복잡한 타워 디펜스 요구사항 입력

  • Sonnet 5에는 React와 Tailwind CSS를 사용한 브라우저 기반 타워 디펜스 게임 구현이 요청된다. [25:10]
  • 게임의 기본 목표는 오른쪽 성을 지키며 왼쪽에서 몰려오는 적을 방어하는 것이다. [25:25]

15. Sonnet 5 결과물의 시작 화면과 기본 규칙 확인

  • Sonnet 5의 빌드에는 몇 분이 걸렸고, 사용량은 약 20만 토큰에 가까웠다. [26:44]
  • 실행 화면에는 Castle Defense 시작 카드, 로고, 적과 방어자 목록, 게임 규칙 안내가 포함된다. [27:22]

16. Sonnet 5 게임플레이에서 자원 계산과 승패 처리 작동

  • 아처와 나이트를 배치한 뒤 웨이브를 시작하면 전투가 자동으로 진행된다. [29:05]
  • 첫 웨이브가 끝난 뒤 고블린 처치 보상이 반영되며 골드가 증가한다. [29:20]

17. Opus 4.8 결과물도 유사한 UI와 동일한 핵심 동작을 구현

  • Opus 4.8 역시 같은 프롬프트로 빌드를 완료한다. [32:18]
  • 시작 화면은 생명 20, 골드 150, 10개 웨이브, 적·방어자 목록, 규칙 안내까지 Sonnet 5 결과물과 거의 같다. [32:33]

18. 항목별 비교 결과와 비용 효율의 차이

  • 두 모델은 전반적으로 같은 작업을 매우 유사한 방식으로 처리한다. [36:01]
  • 복잡도 대응과 기능 구현 면에서 뚜렷한 품질 차이는 거의 확인되지 않는다. [36:16]

19. 대부분의 사용자에게 Sonnet이 더 현실적인 선택

  • 전체 비교 결과를 보면, 99%의 사용자에게는 Sonnet이 충분히 유용하고 더 현실적인 선택에 가깝다. [36:55]
  • 다만 복잡한 빌드나 여러 차례 이어지는 코딩 세션에서는 Opus 4.8이 여전히 우위를 보일 가능성이 남아 있다. [37:10]

🧾 결론

  • 영상의 비교 결과만 보면, Opus 4.8과 Sonnet 5 사이의 결과물 품질 차이는 생각보다 작다.
  • Opus 4.8은 포트폴리오처럼 시각적 완성도와 세부 구성 감각이 중요한 과제에서 더 풍부하고 정돈된 선택을 보여줬다.
  • Sonnet 5는 예산 앱과 게임처럼 기능 구현이 중요한 과제에서 Opus 4.8과 거의 비슷한 수준의 결과를 냈다.
  • 가격과 토큰 사용량까지 고려하면, 일반적인 앱 제작·프로토타이핑·반복 작업에서는 Sonnet 5의 비용 효율이 더 돋보인다.
  • 다만 영상에서는 복잡한 빌드나 여러 코딩 세션에서는 Opus 4.8이 여전히 우위일 가능성을 남겨 둔다.

📈 투자·시사 포인트

  • AI 모델 선택의 기준은 단순 벤치마크 점수보다 실제 사용 과제에서의 결과물 품질, 수정 비용, 토큰 단가를 함께 봐야 한다.
  • 고토큰 프로젝트나 반복적인 앱 제작 업무에서는 모델 단가 차이가 누적 비용에 직접 영향을 주기 때문에, 성능이 비슷하다면 저렴한 모델의 가치가 커진다.
  • Opus 4.8처럼 더 비싼 모델은 디자인 감각, 복잡한 장기 작업, 세밀한 완성도가 중요한 상황에서 선택적으로 쓰는 전략이 더 합리적으로 보인다.
  • Sonnet 5는 일반 사용자와 다수의 실무 프로토타입 제작에 충분한 품질을 제공할 수 있다는 점에서, AI 개발 도구의 접근성을 높이는 모델로 해석할 수 있다.
  • 검증 필요: 영상은 세 가지 과제의 원샷 결과 비교에 기반하므로, 실제 장기 프로젝트의 유지보수성, 코드 품질, 보안성, 테스트 커버리지까지 같은 결론이 유지되는지는 별도 검증이 필요하다.

⚠️ 불확실하거나 확인이 필요한 부분

  • 실험은 “동일 프롬프트·동일 스택·원샷 조건”으로 설명되지만, 실제 프롬프트 전문, 실행 환경, 의존성 버전, 모델 설정값이 모두 공개·검증된 것은 아니므로 재현성 확인이 필요하다.
  • 영상에서 제시된 Sonnet 5와 Opus 4.8의 가격, 벤치마크 수치, 출시 시점 정보는 공식 문서 기준으로 다시 확인해야 한다.
  • 결과 비교는 주로 브라우저에서 보이는 UI와 수동 클릭 테스트 중심이므로, 코드 품질, 접근성, 성능, 보안, 테스트 커버리지까지 검증된 것은 아닙니다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • 세 가지 과제의 실제 프롬프트 전문, 모델 설정, 실행 로그, 의존성 버전을 확보해 재현 가능한 비교 조건을 정리한다.
  • 포트폴리오 웹사이트는 hero, about, projects, services, testimonials, contact, responsive 동작을 기준으로 체크리스트 평가를 진행한다.
  • Budget Flow 앱은 거래 추가, 유효성 검사, 검색·필터, 로컬 스토리지 유지, 저축 목표 편집을 테스트 케이스로 분리해 확인한다.
  • Castle Defense 게임은 웨이브 진행, 골드·생명 계산, 방어자 업그레이드, 일시정지·재시작, 승패 화면을 반복 테스트한다.

❓ 열린 질문

  • Opus 4.8이 포트폴리오 디자인에서 보인 근소한 우위가 실제 제작 비용 차이를 정당화할 만큼 큰 차이인가요?
  • 원샷이 아니라 여러 차례 수정 지시와 디버깅을 포함하면 Sonnet 5와 Opus 4.8의 격차가 더 벌어질까요, 아니면 더 줄어들까요?
  • 기능 구현은 비슷해 보여도 코드 구조, 유지보수성, 컴포넌트 분리, 상태 관리 품질에서는 두 모델 사이에 차이가 있었을까요?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.