I Made Opus 4.8 and Sonnet 5 Build the Same Apps (RAW RESULTS)
Quick Summary
Opus 4.8과 Sonnet 5로 같은 앱을 만든 RAW RESULTS의 핵심은 품질 격차보다 비용 효율 차이가 더 크게 드러났다는 점이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Opus 4.8과 Sonnet 5로 같은 앱을 만든 RAW RESULTS의 핵심은 품질 격차보다 비용 효율 차이가 더 크게 드러났다는 점이다.
📌 핵심 요점
- 실험은 포트폴리오 웹사이트, 개인 예산 앱 Budget Flow, 타워 디펜스 게임 Castle Defense를 동일 프롬프트·동일 스택·원샷 조건으로 만들게 한 뒤 결과물을 비교하는 방식으로 진행됐다.
- 포트폴리오 웹사이트에서는 Opus 4.8이 어두운 테마, 더 구조화된 about 영역, 가격 정보가 포함된 서비스 카드 등에서 근소하게 더 정돈된 결과를 보였다.
- Budget Flow 앱에서는 두 모델 모두 수입·지출 입력, 대시보드 합계, 로컬 저장, 저축 목표, 검색·필터 기능을 구현해 실질적 차이가 거의 드러나지 않았다.
- Castle Defense 게임에서도 생명·골드·웨이브·방어자 배치·업그레이드·활동 로그·패배 화면 등 복잡한 기능 묶음을 두 모델 모두 유사한 수준으로 구현했다.
- 최종 판단은 Opus 4.8이 일부 디자인·완성도에서 앞설 수 있지만, 대부분의 사용자에게는 Sonnet 5가 더 낮은 비용과 비슷한 결과물 때문에 현실적인 선택이라는 쪽으로 기운다.
🧩 배경과 문제 정의
- Sonnet 5 출시 이후, 더 비싼 Claude Opus 4.8이 실제 앱 제작에서도 비용 대비 우위를 보이는지가 핵심 쟁점이다.
- 벤치마크 수치만으로는 결과물의 차이를 판단하기 어렵기 때문에, 동일 프롬프트·동일 스택·원샷 조건에서 직접 비교하는 방식이 필요하다.
- 비교 과제는 포트폴리오 웹사이트, 개인 예산 웹앱, 브라우저 타워 디펜스 게임으로 구성된다.
- 판단 기준은 디자인 완성도, 기능 충실도, 상호작용, 복잡한 로직 처리, 가격 대비 효율이다.
🕒 시간순 섹션별 상세정리
1. 비교 실험의 조건과 첫 번째 과제 설정
- Sonnet 5 출시 직후, Opus 4.8이 더 높은 비용을 감수할 만큼 우수한지가 핵심 비교 지점으로 드러난다. [00:44]
- 단순 벤치마크가 아니라, 같은 프롬프트로 실제 제작물 세 가지를 만들고 결과물을 직접 비교하는 방식이 선택된다. [00:59]
2. 성능과 가격 차이가 비용 대비 판단의 핵심으로 부상
- Sonnet 5는 agentic coding, multi-disciplinary reasoning, knowledge work 영역에서 Opus 4.8에 가까운 성능을 보인다. [02:34]
- agentic coding 점수는 Sonnet 5가 63.2%, Opus 4.8이 69.2%로, 수치상 격차가 크지 않다. [02:53]
3. Sonnet 5 포트폴리오 결과의 완성도와 결점
- Sonnet 5 결과물은 localhost 5180에서 실행되며, Alex Morgan 포트폴리오의 첫 화면은 깔끔하고 프리미엄한 인상을 준다. [04:18]
- hero 영역에는 “start a project”, “view my work” 버튼과 움직이는 카드가 배치되지만, 우측 “AM” 표시는 실제 이미지보다 대체 요소처럼 보인다. [04:42]
4. Opus 4.8 동일 조건 실행과 고토큰 사용 맥락
- 동일한 포트폴리오 프롬프트가 Opus 4.8 extra effort 세션에도 그대로 입력된다. [06:38]
- Vite, React, Tailwind 기반 조건 역시 Sonnet 5 실험과 동일하게 유지된다. [06:53]
5. Opus 4.8 결과의 어두운 테마와 정돈된 구성
- Opus 4.8 결과물은 Sonnet 5보다 어두운 배경과 다른 폰트 분위기를 선택한다. [08:46]
- hero 우측에는 움직이는 카드 애니메이션과 경력, 프로젝트, 고객 수 지표가 함께 배치된다. [09:01]
6. 첫 과제 비교 판단과 세부 완성도 차이
- 두 포트폴리오는 색상과 테마는 다르지만 카드 구성과 전체 레이아웃에서는 큰 차이가 없다. [10:33]
- 첫 화면 기준으로는 두 모델의 결과물 격차가 제한적으로 보인다. [10:48]
7. 첫 번째 테스트 마무리와 두 모델의 디자인 차이
- Opus 4.8은 후기 카드와 연락처 영역에서 색상 활용과 카드 구성이 더 풍부하고 정돈돼 보인다. [12:01]
- Sonnet 5는 상대적으로 단순하지만 깔끔한 결과물을 만든다. [12:16]
8. Budget Flow 테스트의 요구사항과 Sonnet 5 실행
- 두 번째 테스트는 개인 예산 웹앱인 Budget Flow 제작 과제로 전환된다. [13:33]
- 요구사항은 수입·지출 입력, 대시보드 합계, 거래 검색·필터, 저축 목표, 소비 차트, 데이터 유지 기능이다. [13:48]
9. Sonnet 5 앱의 거래 입력과 초기 기능 확인
- Sonnet 5 결과물은 총수입과 지출이 모두 0인 초기 대시보드에서 시작한다. [15:57]
- 거래 탭에서는 지출 또는 수입을 이름, 금액, 카테고리, 메모와 함께 추가할 수 있다. [16:12]
10. Sonnet 5 앱의 저장 유지, 차트, 저축 목표, 검색 검증
- 새로고침 후에도 총수입 1,500달러, 지출 389달러, 잔액 1,111달러가 유지된다. [17:56]
- 소비 카테고리 차트와 수입 대비 지출 시각화도 그대로 남아 데이터 유지가 확인된다. [18:11]
11. Opus 4.8 앱 생성과 거래·대시보드 기능 확인
- 같은 Budget Flow 프롬프트가 Opus 4.8에도 적용되고, 결과물은 localhost 5187에서 실행된다. [20:02]
- UI는 대시보드, 거래, 저축 탭으로 구성되며 Sonnet 5와 거의 비슷한 형태를 보인다. [20:17]
12. Opus 4.8 앱의 저축 목표와 검색·필터 확인
- Opus 4.8의 저축 탭에서는 emergency fund 목표가 12,000달러로 설정된다. [23:00]
- 3,000달러, 1,500달러, 300달러가 추가되며 저축 진행 상태가 대시보드에 반영된다. [23:15]
13. 웹앱 비교 이후 복잡한 게임 과제로 전환
- Budget Flow 웹앱에서는 Opus 4.8과 Sonnet 5가 화면 구성과 동작 면에서 거의 동일한 결과를 보인다. [24:00]
- 두 결과물의 차이가 크게 드러나지 않자, 더 복잡한 세 번째 테스트로 넘어간다. [24:15]
14. Sonnet 5에 복잡한 타워 디펜스 요구사항 입력
- Sonnet 5에는 React와 Tailwind CSS를 사용한 브라우저 기반 타워 디펜스 게임 구현이 요청된다. [25:10]
- 게임의 기본 목표는 오른쪽 성을 지키며 왼쪽에서 몰려오는 적을 방어하는 것이다. [25:25]
15. Sonnet 5 결과물의 시작 화면과 기본 규칙 확인
- Sonnet 5의 빌드에는 몇 분이 걸렸고, 사용량은 약 20만 토큰에 가까웠다. [26:44]
- 실행 화면에는 Castle Defense 시작 카드, 로고, 적과 방어자 목록, 게임 규칙 안내가 포함된다. [27:22]
16. Sonnet 5 게임플레이에서 자원 계산과 승패 처리 작동
- 아처와 나이트를 배치한 뒤 웨이브를 시작하면 전투가 자동으로 진행된다. [29:05]
- 첫 웨이브가 끝난 뒤 고블린 처치 보상이 반영되며 골드가 증가한다. [29:20]
17. Opus 4.8 결과물도 유사한 UI와 동일한 핵심 동작을 구현
- Opus 4.8 역시 같은 프롬프트로 빌드를 완료한다. [32:18]
- 시작 화면은 생명 20, 골드 150, 10개 웨이브, 적·방어자 목록, 규칙 안내까지 Sonnet 5 결과물과 거의 같다. [32:33]
18. 항목별 비교 결과와 비용 효율의 차이
- 두 모델은 전반적으로 같은 작업을 매우 유사한 방식으로 처리한다. [36:01]
- 복잡도 대응과 기능 구현 면에서 뚜렷한 품질 차이는 거의 확인되지 않는다. [36:16]
19. 대부분의 사용자에게 Sonnet이 더 현실적인 선택
- 전체 비교 결과를 보면, 99%의 사용자에게는 Sonnet이 충분히 유용하고 더 현실적인 선택에 가깝다. [36:55]
- 다만 복잡한 빌드나 여러 차례 이어지는 코딩 세션에서는 Opus 4.8이 여전히 우위를 보일 가능성이 남아 있다. [37:10]
🧾 결론
- 영상의 비교 결과만 보면, Opus 4.8과 Sonnet 5 사이의 결과물 품질 차이는 생각보다 작다.
- Opus 4.8은 포트폴리오처럼 시각적 완성도와 세부 구성 감각이 중요한 과제에서 더 풍부하고 정돈된 선택을 보여줬다.
- Sonnet 5는 예산 앱과 게임처럼 기능 구현이 중요한 과제에서 Opus 4.8과 거의 비슷한 수준의 결과를 냈다.
- 가격과 토큰 사용량까지 고려하면, 일반적인 앱 제작·프로토타이핑·반복 작업에서는 Sonnet 5의 비용 효율이 더 돋보인다.
- 다만 영상에서는 복잡한 빌드나 여러 코딩 세션에서는 Opus 4.8이 여전히 우위일 가능성을 남겨 둔다.
📈 투자·시사 포인트
- AI 모델 선택의 기준은 단순 벤치마크 점수보다 실제 사용 과제에서의 결과물 품질, 수정 비용, 토큰 단가를 함께 봐야 한다.
- 고토큰 프로젝트나 반복적인 앱 제작 업무에서는 모델 단가 차이가 누적 비용에 직접 영향을 주기 때문에, 성능이 비슷하다면 저렴한 모델의 가치가 커진다.
- Opus 4.8처럼 더 비싼 모델은 디자인 감각, 복잡한 장기 작업, 세밀한 완성도가 중요한 상황에서 선택적으로 쓰는 전략이 더 합리적으로 보인다.
- Sonnet 5는 일반 사용자와 다수의 실무 프로토타입 제작에 충분한 품질을 제공할 수 있다는 점에서, AI 개발 도구의 접근성을 높이는 모델로 해석할 수 있다.
- 검증 필요: 영상은 세 가지 과제의 원샷 결과 비교에 기반하므로, 실제 장기 프로젝트의 유지보수성, 코드 품질, 보안성, 테스트 커버리지까지 같은 결론이 유지되는지는 별도 검증이 필요하다.
⚠️ 불확실하거나 확인이 필요한 부분
- 실험은 “동일 프롬프트·동일 스택·원샷 조건”으로 설명되지만, 실제 프롬프트 전문, 실행 환경, 의존성 버전, 모델 설정값이 모두 공개·검증된 것은 아니므로 재현성 확인이 필요하다.
- 영상에서 제시된 Sonnet 5와 Opus 4.8의 가격, 벤치마크 수치, 출시 시점 정보는 공식 문서 기준으로 다시 확인해야 한다.
- 결과 비교는 주로 브라우저에서 보이는 UI와 수동 클릭 테스트 중심이므로, 코드 품질, 접근성, 성능, 보안, 테스트 커버리지까지 검증된 것은 아닙니다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 세 가지 과제의 실제 프롬프트 전문, 모델 설정, 실행 로그, 의존성 버전을 확보해 재현 가능한 비교 조건을 정리한다.
- 포트폴리오 웹사이트는 hero, about, projects, services, testimonials, contact, responsive 동작을 기준으로 체크리스트 평가를 진행한다.
- Budget Flow 앱은 거래 추가, 유효성 검사, 검색·필터, 로컬 스토리지 유지, 저축 목표 편집을 테스트 케이스로 분리해 확인한다.
- Castle Defense 게임은 웨이브 진행, 골드·생명 계산, 방어자 업그레이드, 일시정지·재시작, 승패 화면을 반복 테스트한다.
❓ 열린 질문
- Opus 4.8이 포트폴리오 디자인에서 보인 근소한 우위가 실제 제작 비용 차이를 정당화할 만큼 큰 차이인가요?
- 원샷이 아니라 여러 차례 수정 지시와 디버깅을 포함하면 Sonnet 5와 Opus 4.8의 격차가 더 벌어질까요, 아니면 더 줄어들까요?
- 기능 구현은 비슷해 보여도 코드 구조, 유지보수성, 컴포넌트 분리, 상태 관리 품질에서는 두 모델 사이에 차이가 있었을까요?