I Made Opus 4.8 and Sonnet 5 Build the Same Apps (RAW RESULTS)

🖼️ 인포그래픽

I Made Opus 4.8 and Sonnet 5 Build the Same Apps (RAW RESULTS) 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

Opus 4.8과 Sonnet 5로 같은 앱을 만든 RAW RESULTS의 핵심은 품질 격차보다 비용 효율 차이가 더 크게 드러났다는 점이다.

📌 핵심 요점

실험은 포트폴리오 웹사이트, 개인 예산 앱 Budget Flow, 타워 디펜스 게임 Castle Defense를 동일 프롬프트·동일 스택·원샷 조건으로 만들게 한 뒤 결과물을 비교하는 방식으로 진행됐다.
포트폴리오 웹사이트에서는 Opus 4.8이 어두운 테마, 더 구조화된 about 영역, 가격 정보가 포함된 서비스 카드 등에서 근소하게 더 정돈된 결과를 보였다.
Budget Flow 앱에서는 두 모델 모두 수입·지출 입력, 대시보드 합계, 로컬 저장, 저축 목표, 검색·필터 기능을 구현해 실질적 차이가 거의 드러나지 않았다.
Castle Defense 게임에서도 생명·골드·웨이브·방어자 배치·업그레이드·활동 로그·패배 화면 등 복잡한 기능 묶음을 두 모델 모두 유사한 수준으로 구현했다.
최종 판단은 Opus 4.8이 일부 디자인·완성도에서 앞설 수 있지만, 대부분의 사용자에게는 Sonnet 5가 더 낮은 비용과 비슷한 결과물 때문에 현실적인 선택이라는 쪽으로 기운다.

🧩 배경과 문제 정의

Sonnet 5 출시 이후, 더 비싼 Claude Opus 4.8이 실제 앱 제작에서도 비용 대비 우위를 보이는지가 핵심 쟁점이다.
벤치마크 수치만으로는 결과물의 차이를 판단하기 어렵기 때문에, 동일 프롬프트·동일 스택·원샷 조건에서 직접 비교하는 방식이 필요하다.
비교 과제는 포트폴리오 웹사이트, 개인 예산 웹앱, 브라우저 타워 디펜스 게임으로 구성된다.
판단 기준은 디자인 완성도, 기능 충실도, 상호작용, 복잡한 로직 처리, 가격 대비 효율이다.

🕒 시간순 섹션별 상세정리

1. 비교 실험의 조건과 첫 번째 과제 설정

Sonnet 5 출시 직후, Opus 4.8이 더 높은 비용을 감수할 만큼 우수한지가 핵심 비교 지점으로 드러난다. [00:44]
단순 벤치마크가 아니라, 같은 프롬프트로 실제 제작물 세 가지를 만들고 결과물을 직접 비교하는 방식이 선택된다. [00:59]

2. 성능과 가격 차이가 비용 대비 판단의 핵심으로 부상

Sonnet 5는 agentic coding, multi-disciplinary reasoning, knowledge work 영역에서 Opus 4.8에 가까운 성능을 보인다. [02:34]
agentic coding 점수는 Sonnet 5가 63.2%, Opus 4.8이 69.2%로, 수치상 격차가 크지 않다. [02:53]

3. Sonnet 5 포트폴리오 결과의 완성도와 결점

Sonnet 5 결과물은 localhost 5180에서 실행되며, Alex Morgan 포트폴리오의 첫 화면은 깔끔하고 프리미엄한 인상을 준다. [04:18]
hero 영역에는 “start a project”, “view my work” 버튼과 움직이는 카드가 배치되지만, 우측 “AM” 표시는 실제 이미지보다 대체 요소처럼 보인다. [04:42]

4. Opus 4.8 동일 조건 실행과 고토큰 사용 맥락

동일한 포트폴리오 프롬프트가 Opus 4.8 extra effort 세션에도 그대로 입력된다. [06:38]
Vite, React, Tailwind 기반 조건 역시 Sonnet 5 실험과 동일하게 유지된다. [06:53]

5. Opus 4.8 결과의 어두운 테마와 정돈된 구성

Opus 4.8 결과물은 Sonnet 5보다 어두운 배경과 다른 폰트 분위기를 선택한다. [08:46]
hero 우측에는 움직이는 카드 애니메이션과 경력, 프로젝트, 고객 수 지표가 함께 배치된다. [09:01]

6. 첫 과제 비교 판단과 세부 완성도 차이

두 포트폴리오는 색상과 테마는 다르지만 카드 구성과 전체 레이아웃에서는 큰 차이가 없다. [10:33]
첫 화면 기준으로는 두 모델의 결과물 격차가 제한적으로 보인다. [10:48]

7. 첫 번째 테스트 마무리와 두 모델의 디자인 차이

Opus 4.8은 후기 카드와 연락처 영역에서 색상 활용과 카드 구성이 더 풍부하고 정돈돼 보인다. [12:01]
Sonnet 5는 상대적으로 단순하지만 깔끔한 결과물을 만든다. [12:16]

8. Budget Flow 테스트의 요구사항과 Sonnet 5 실행

두 번째 테스트는 개인 예산 웹앱인 Budget Flow 제작 과제로 전환된다. [13:33]
요구사항은 수입·지출 입력, 대시보드 합계, 거래 검색·필터, 저축 목표, 소비 차트, 데이터 유지 기능이다. [13:48]

9. Sonnet 5 앱의 거래 입력과 초기 기능 확인

Sonnet 5 결과물은 총수입과 지출이 모두 0인 초기 대시보드에서 시작한다. [15:57]
거래 탭에서는 지출 또는 수입을 이름, 금액, 카테고리, 메모와 함께 추가할 수 있다. [16:12]

10. Sonnet 5 앱의 저장 유지, 차트, 저축 목표, 검색 검증

새로고침 후에도 총수입 1,500달러, 지출 389달러, 잔액 1,111달러가 유지된다. [17:56]
소비 카테고리 차트와 수입 대비 지출 시각화도 그대로 남아 데이터 유지가 확인된다. [18:11]

11. Opus 4.8 앱 생성과 거래·대시보드 기능 확인

같은 Budget Flow 프롬프트가 Opus 4.8에도 적용되고, 결과물은 localhost 5187에서 실행된다. [20:02]
UI는 대시보드, 거래, 저축 탭으로 구성되며 Sonnet 5와 거의 비슷한 형태를 보인다. [20:17]

12. Opus 4.8 앱의 저축 목표와 검색·필터 확인

Opus 4.8의 저축 탭에서는 emergency fund 목표가 12,000달러로 설정된다. [23:00]
3,000달러, 1,500달러, 300달러가 추가되며 저축 진행 상태가 대시보드에 반영된다. [23:15]

13. 웹앱 비교 이후 복잡한 게임 과제로 전환

Budget Flow 웹앱에서는 Opus 4.8과 Sonnet 5가 화면 구성과 동작 면에서 거의 동일한 결과를 보인다. [24:00]
두 결과물의 차이가 크게 드러나지 않자, 더 복잡한 세 번째 테스트로 넘어간다. [24:15]

14. Sonnet 5에 복잡한 타워 디펜스 요구사항 입력

Sonnet 5에는 React와 Tailwind CSS를 사용한 브라우저 기반 타워 디펜스 게임 구현이 요청된다. [25:10]
게임의 기본 목표는 오른쪽 성을 지키며 왼쪽에서 몰려오는 적을 방어하는 것이다. [25:25]

15. Sonnet 5 결과물의 시작 화면과 기본 규칙 확인

Sonnet 5의 빌드에는 몇 분이 걸렸고, 사용량은 약 20만 토큰에 가까웠다. [26:44]
실행 화면에는 Castle Defense 시작 카드, 로고, 적과 방어자 목록, 게임 규칙 안내가 포함된다. [27:22]

16. Sonnet 5 게임플레이에서 자원 계산과 승패 처리 작동

아처와 나이트를 배치한 뒤 웨이브를 시작하면 전투가 자동으로 진행된다. [29:05]
첫 웨이브가 끝난 뒤 고블린 처치 보상이 반영되며 골드가 증가한다. [29:20]

17. Opus 4.8 결과물도 유사한 UI와 동일한 핵심 동작을 구현

Opus 4.8 역시 같은 프롬프트로 빌드를 완료한다. [32:18]
시작 화면은 생명 20, 골드 150, 10개 웨이브, 적·방어자 목록, 규칙 안내까지 Sonnet 5 결과물과 거의 같다. [32:33]

18. 항목별 비교 결과와 비용 효율의 차이

두 모델은 전반적으로 같은 작업을 매우 유사한 방식으로 처리한다. [36:01]
복잡도 대응과 기능 구현 면에서 뚜렷한 품질 차이는 거의 확인되지 않는다. [36:16]

19. 대부분의 사용자에게 Sonnet이 더 현실적인 선택

전체 비교 결과를 보면, 99%의 사용자에게는 Sonnet이 충분히 유용하고 더 현실적인 선택에 가깝다. [36:55]
다만 복잡한 빌드나 여러 차례 이어지는 코딩 세션에서는 Opus 4.8이 여전히 우위를 보일 가능성이 남아 있다. [37:10]

🧾 결론

영상의 비교 결과만 보면, Opus 4.8과 Sonnet 5 사이의 결과물 품질 차이는 생각보다 작다.
Opus 4.8은 포트폴리오처럼 시각적 완성도와 세부 구성 감각이 중요한 과제에서 더 풍부하고 정돈된 선택을 보여줬다.
Sonnet 5는 예산 앱과 게임처럼 기능 구현이 중요한 과제에서 Opus 4.8과 거의 비슷한 수준의 결과를 냈다.
가격과 토큰 사용량까지 고려하면, 일반적인 앱 제작·프로토타이핑·반복 작업에서는 Sonnet 5의 비용 효율이 더 돋보인다.
다만 영상에서는 복잡한 빌드나 여러 코딩 세션에서는 Opus 4.8이 여전히 우위일 가능성을 남겨 둔다.

📈 투자·시사 포인트

AI 모델 선택의 기준은 단순 벤치마크 점수보다 실제 사용 과제에서의 결과물 품질, 수정 비용, 토큰 단가를 함께 봐야 한다.
고토큰 프로젝트나 반복적인 앱 제작 업무에서는 모델 단가 차이가 누적 비용에 직접 영향을 주기 때문에, 성능이 비슷하다면 저렴한 모델의 가치가 커진다.
Opus 4.8처럼 더 비싼 모델은 디자인 감각, 복잡한 장기 작업, 세밀한 완성도가 중요한 상황에서 선택적으로 쓰는 전략이 더 합리적으로 보인다.
Sonnet 5는 일반 사용자와 다수의 실무 프로토타입 제작에 충분한 품질을 제공할 수 있다는 점에서, AI 개발 도구의 접근성을 높이는 모델로 해석할 수 있다.
검증 필요: 영상은 세 가지 과제의 원샷 결과 비교에 기반하므로, 실제 장기 프로젝트의 유지보수성, 코드 품질, 보안성, 테스트 커버리지까지 같은 결론이 유지되는지는 별도 검증이 필요하다.

⚠️ 불확실하거나 확인이 필요한 부분

실험은 “동일 프롬프트·동일 스택·원샷 조건”으로 설명되지만, 실제 프롬프트 전문, 실행 환경, 의존성 버전, 모델 설정값이 모두 공개·검증된 것은 아니므로 재현성 확인이 필요하다.
영상에서 제시된 Sonnet 5와 Opus 4.8의 가격, 벤치마크 수치, 출시 시점 정보는 공식 문서 기준으로 다시 확인해야 한다.
결과 비교는 주로 브라우저에서 보이는 UI와 수동 클릭 테스트 중심이므로, 코드 품질, 접근성, 성능, 보안, 테스트 커버리지까지 검증된 것은 아닙니다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

세 가지 과제의 실제 프롬프트 전문, 모델 설정, 실행 로그, 의존성 버전을 확보해 재현 가능한 비교 조건을 정리한다.
포트폴리오 웹사이트는 hero, about, projects, services, testimonials, contact, responsive 동작을 기준으로 체크리스트 평가를 진행한다.
Budget Flow 앱은 거래 추가, 유효성 검사, 검색·필터, 로컬 스토리지 유지, 저축 목표 편집을 테스트 케이스로 분리해 확인한다.
Castle Defense 게임은 웨이브 진행, 골드·생명 계산, 방어자 업그레이드, 일시정지·재시작, 승패 화면을 반복 테스트한다.

❓ 열린 질문

Opus 4.8이 포트폴리오 디자인에서 보인 근소한 우위가 실제 제작 비용 차이를 정당화할 만큼 큰 차이인가요?
원샷이 아니라 여러 차례 수정 지시와 디버깅을 포함하면 Sonnet 5와 Opus 4.8의 격차가 더 벌어질까요, 아니면 더 줄어들까요?
기능 구현은 비슷해 보여도 코드 구조, 유지보수성, 컴포넌트 분리, 상태 관리 품질에서는 두 모델 사이에 차이가 있었을까요?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. 비교 실험의 조건과 첫 번째 과제 설정

2. 성능과 가격 차이가 비용 대비 판단의 핵심으로 부상

3. Sonnet 5 포트폴리오 결과의 완성도와 결점

4. Opus 4.8 동일 조건 실행과 고토큰 사용 맥락

5. Opus 4.8 결과의 어두운 테마와 정돈된 구성

6. 첫 과제 비교 판단과 세부 완성도 차이

7. 첫 번째 테스트 마무리와 두 모델의 디자인 차이

8. Budget Flow 테스트의 요구사항과 Sonnet 5 실행

9. Sonnet 5 앱의 거래 입력과 초기 기능 확인

10. Sonnet 5 앱의 저장 유지, 차트, 저축 목표, 검색 검증

11. Opus 4.8 앱 생성과 거래·대시보드 기능 확인

12. Opus 4.8 앱의 저축 목표와 검색·필터 확인

13. 웹앱 비교 이후 복잡한 게임 과제로 전환

14. Sonnet 5에 복잡한 타워 디펜스 요구사항 입력

15. Sonnet 5 결과물의 시작 화면과 기본 규칙 확인

16. Sonnet 5 게임플레이에서 자원 계산과 승패 처리 작동

17. Opus 4.8 결과물도 유사한 UI와 동일한 핵심 동작을 구현

18. 항목별 비교 결과와 비용 효율의 차이

19. 대부분의 사용자에게 Sonnet이 더 현실적인 선택

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

The SpaceX IPO and the Physical Stack

나만의 Hermes 시스템 구축 방법 (문제정의부터 구축까지, 해외 AI 인사이트 발굴하기)

Google DeepMind is worried about what happens when millions of agents start to interact

Reacting To Your Feedback On Unleash The Avatar

우주가 수축하면 밤하늘은 어떻게 변할까?

How Karlie Kloss Went From Cover Girl to Media Mogul