GLM 5.2 in Claude Code is Blowing My Mind
Quick Summary
GLM 5.2 in Claude Code는 모든 작업을 고가의 Opus급 모델에 맡기기보다, 작업 난도에 따라 저렴한 오픈소스 계열 모델과 강한 추론 모델을 나눠 쓰는 흐름을 보여준다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
GLM 5.2 in Claude Code는 모든 작업을 고가의 Opus급 모델에 맡기기보다, 작업 난도에 따라 저렴한 오픈소스 계열 모델과 강한 추론 모델을 나눠 쓰는 흐름을 보여준다.
📌 핵심 요점
- GLM 5.2는 Claude Code 같은 에이전트 하네스 안에서 빠르고 저렴하게 작동하며, 기존 워크플로에 비교적 자연스럽게 들어가는 대안으로 제시된다.
- 웹 디자인·창의적 HTML 제작에서는 Opus와 품질 차이가 크지 않은 결과도 있었지만, 복잡한 추론이나 미묘한 엣지 케이스 처리에서는 Opus가 더 정밀한 모습을 보였다.
- 영상의 핵심 관점은 “모든 작업에 최고가 모델이 필요한가”이며, 일상 작업의 상당 부분은 GLM 5.2나 Sonnet급 모델로 처리하고 일부 고난도 판단만 Opus급 모델에 맡기는 방식이다.
- GLM 5.2는 1M 컨텍스트와 낮은 토큰 단가가 강점이지만, 753B급 대형 모델이라 일반 사용자가 로컬에서 직접 운영하기보다는 Z.AI 같은 클라우드 실행 환경을 쓰는 현실적 제약이 있다.
- Claude Code 설정에서 API base URL과 인증 토큰, 기본 모델 값을 바꾸면 하네스는 유지한 채 내부 모델만 GLM 5.2로 라우팅할 수 있고, 프로젝트별로 GLM과 Opus를 나눠 쓰는 구성도 가능하다.
🧩 배경과 문제 정의
- 이 영상은 GLM 5.2를 Claude Code 같은 에이전트 하네스 안에서 실제로 써 보며, 속도·비용·품질이 기존 고가 폐쇄형 모델과 비교해 어느 정도인지 살펴보는 흐름이다.
- 핵심 문제의식은 “모든 작업에 Opus 같은 고가 모델을 써야 하는가”에 있다.
- 발표자는 작업을 모두 최고급 추론 모델에 맡기기보다, 무거운 추론이 필요한 일부 작업과 빠르고 저렴하게 처리할 수 있는 다수의 작업을 나눠 모델을 선택하는 전략을 강조한다.
- GLM 5.2는 영상 기준으로 1M 컨텍스트와 낮은 토큰 단가를 제공하는 대안으로 소개되지만, 753B급 대형 모델이라 일반 사용자가 로컬에서 직접 운용하기에는 하드웨어와 인프라 부담이 크다고 설명된다.
- 실제 판단 기준은 단순 벤치마크보다 Claude Code 안에서의 체감 속도, 디자인 결과물, 코딩·HTML 제작, 리서치 오케스트레이션, API 라우팅과 비용 구조에서 드러나는 실사용 성능에 가깝다.
- 검증 필요: GLM 5.2의 파라미터 규모, 1M 컨텍스트, Z.AI·Ollama 클라우드 실행 조건, Opus와 GLM의 토큰 단가는 영상 내 설명 기준이며, 실제 사용 전에는 각 제공사의 최신 문서와 가격표 확인이 필요하다.
🕒 시간순 섹션별 상세정리
1. GLM 5.2의 첫인상과 Claude Code 안에서의 실행 성능
- GLM 5.2는 Claude Code 하네스 안에서 빠르고 저렴하게 동작하는 모델로 소개되며, 기존 에이전트형 개발 워크플로에 비교적 자연스럽게 들어가는 대안으로 다뤄진다 [00:04]
- 발표자는 GLM 5.2가 Claude Code 안에서 실제 작업을 수행하는 모습을 보여주며, 단순한 벤치마크보다 “에이전트 하네스 안에서 얼마나 쓸 만한가”를 중심으로 평가를 시작한다 [00:19]
- 영상 초반 인트로 결과물은 원본 영상에서 최종 편집본까지 GLM 5.2가 하나의 목표 프롬프트로 만들어 낸 사례로 드러난다 [00:24]
- 다만 23초 분량의 인트로를 만드는 데 약 1시간 15분이 걸렸다고 설명되어, 결과물 품질과 별개로 영상 편집류 작업에서는 속도 한계도 함께 드러난다 [00:39]
2. 디자인 결과 비교와 비용 대비 품질
- GLM 5.2와 Opus가 각각 만든 웹 디자인 결과물은 같은 회사의 브랜딩처럼 보일 정도로 스타일과 구성 요소가 유사하게 나타났다고 드러난다 [01:06]
- 두 결과물 모두 동적 요소와 하단 CTA를 포함하고 있어, 원샷 프롬프트 기반 결과로는 상당히 준수한 편으로 평가된다 [01:21]
- 발표자는 Opus 결과물 쪽에서 특유의 이상한 F 형태 폰트가 단서처럼 보였다고 말하며, 두 모델의 산출물을 비교한다 [01:22]
- GLM 5.2 결과물도 품질 차이가 크게 벌어지지 않았기 때문에, 약 5배 저렴한 비용을 고려하면 비용 대비 경쟁력이 크다는 논지가 드러난다 [01:37]
3. 작업별 모델 선택과 GLM의 강점·약점
- GLM 5.2는 무거운 추론이 필요하지 않은 다수의 작업에서 빠르고 견고하게 쓸 수 있는 모델로 드러난다 [02:29]
- 반면 Opus 4.8은 폐쇄형 고성능 모델로서 정밀한 추론이나 어려운 문제 해결이 필요한 작업에서는 여전히 우위를 가진 모델로 구분된다 [02:44]
- 발표자는 하루 작업 전체를 놓고 보면 Opus급 성능이 반드시 필요한 비중이 10~20% 정도일 수 있다고 본다 [02:59]
- 나머지 80% 이상의 작업은 GLM 5.2나 Sonnet 3.7급 모델로 처리할 수 있다는 관점에서, 모델을 작업 성격에 따라 나눠 쓰는 전략이 중요해진다 [03:14]
4. 창의적 HTML 제작과 Claude Code 하네스 활용
- GLM 5.2는 자유 주제 HTML 제작 프롬프트에서 ‘attention의 해부’라는 인터랙티브 문서를 생성한 사례로 묶인다 [03:35]
- 이 결과물에는 배경 애니메이션, 토큰 관계 그래프, 문장 안의 참조 구조, 차트 요소 등이 포함되어 있어 단순 정적 페이지보다 복합적인 HTML 산출물에 가깝게 드러난다 [03:50]
- 같은 프롬프트에서 Opus는 ‘Death Star의 생애’를 다룬 타임라인형 결과물을 만들었고, 디자인 품질 자체는 좋게 평가된다 [04:29]
- 그러나 발표자는 Opus 결과물이 좋더라도 비용이 5배 높은 만큼 GLM보다 확실히 5배 더 낫다고 말하기는 어렵다는 비용 대비 품질 관점을 강조한다 [04:44]
5. 리서치 오케스트레이션에서의 GLM 활용 범위
- GLM 5.2는 storm research 스킬을 통해 오픈소스 AI 모델과 폐쇄형 모델을 비교하는 HTML 리포트를 만드는 데 사용된다 [05:22]
- 이 과정에서는 여러 GLM 기반 서브에이전트와 페르소나가 함께 동작하며, 단일 응답 생성보다 리서치 흐름을 오케스트레이션하는 방식으로 활용된다 [05:37]
- 결과물은 V2 리포트로 한 차례 작성된 뒤, 다른 에이전트가 검토하고 수정하는 단계까지 거친 사례로 드러난다 [05:41]
- 리포트에는 60초 요약, 핵심 발견, 학계·실무자·경제학자·회의론자·역사학자 관점의 찬반 구조가 포함되어, 여러 관점을 묶는 리서치 산출물 형태를 보여준다 [05:56]
6. 오픈소스 모델의 비용 구조와 Z.AI 설정 흐름
- GLM 5.2는 오픈소스 모델로 소개되지만, 753B 파라미터 규모이기 때문에 일반 사용자가 로컬에서 직접 실행하기는 어렵다고 드러난다 [07:36]
- 따라서 현실적인 사용 방식은 Z.AI나 Ollama 클라우드 같은 온라인 실행 환경을 빌려 쓰는 방향에 가깝다고 압축된다 [07:51]
- 영상에서는 Opus 4.8의 토큰 가격이 입력 100만 토큰당 5달러, 출력 25달러 수준으로 나온다 [08:24]
- GLM 5.2는 입력 100만 토큰당 1.40달러, 출력 4.40달러 수준으로 소개되며, 무거운 코딩 작업을 하루 동안 수행할 때 약 5배 저렴한 비용 구조가 될 수 있다고 드러난다 [08:39]
7. Claude Code 설정 파일로 GLM 5.2 API 라우팅하기
- 웹 검색을 많이 사용하는 작업에서는 quota가 소진될 수 있으며, 이 경우 Perplexity나 다른 API를 붙여 검색 수요를 우회하거나 보완할 수 있다고 드러난다 [12:03]
- 발표자는 GLM 5.2를 단순 모델 비교 대상이 아니라 Claude Code 설정과 연결해 실제 작업 환경 안에서 라우팅하는 방식으로 다룬다 [12:18]
- Claude Code의
settings.local.json에서는 permission, MCP server, 환경 변수 같은 설정을 다룰 수 있다고 드러난다 [12:24] - agent teams를 사용하는 경우에는 설정 위치가 로컬 프로젝트 단위인지 글로벌 설정인지에 따라 달라질 수 있어, 어떤 범위에 설정을 적용할지 구분해야 한다 [12:39]
8. 프로젝트별 모델 분리와 오픈소스 모델 확산 전망
- GLM 폴더에는
settings.local.json이 있고 Opus 폴더에는 해당 라우팅 설정이 없도록 구성해, 디렉터리별로 서로 다른 모델 실행 환경을 나누는 방식이 드러난다 [13:58] - 이 구조에서는 GLM 폴더에서 Claude Code를 실행하면 GLM 5.2로 라우팅되고, Opus 폴더에서는 기본 Claude Opus 환경을 쓰는 식으로 프로젝트별 모델 선택이 가능해진다 [14:13]
- 라우팅 설정이 없는 디렉터리에서는 Claude Max plan의 Opus가 자동으로 열리며, 별도 설정이 있는 디렉터리에서는 GLM 5.2를 쓰는 방식으로 구분된다 [14:18]
- 마무리 논지는 하나의 최고가 모델에 모든 작업을 맡기기보다, 프로젝트와 작업 성격에 따라 오픈소스 계열 모델과 고성능 폐쇄형 모델을 나눠 쓰는 흐름이 더 중요해질 수 있다는 방향으로 압축된다 [14:33]
🧾 결론
- GLM 5.2는 Opus를 완전히 대체한다기보다, 비용 대비 성능이 중요한 다수의 작업을 맡길 수 있는 실용적 보완재로 소개된다.
- 영상 속 테스트에서는 디자인·리서치 오케스트레이션·일반 제작 작업에서 GLM 5.2가 충분히 경쟁력 있는 결과를 냈지만, 정밀 추론과 최종 판단 단계에서는 더 강한 모델의 필요성이 남아 있다.
- 중요한 변화는 모델 자체만이 아니라 Claude Code 같은 하네스, 스킬, 서브에이전트, 컨텍스트 레이어를 조합해 작업별로 모델을 배치하는 운영 방식이다.
- 비용 측면에서는 GLM 5.2가 입력·출력 토큰 단가에서 Opus보다 낮게 제시되어, 장시간 코딩이나 반복 제작 작업에서 경제적 장점이 커질 수 있다.
- 검증 필요: 영상에서 언급된 가격, 벤치마크 순위, 특정 플랜의 쿼터 구조는 서비스 정책 변화에 따라 달라질 수 있으므로 실제 도입 전 최신 공식 정보를 확인해야 한다.
📈 투자·시사 포인트
- 오픈소스 계열 대형 모델이 Claude Code 같은 상용 하네스 안에서 실용적으로 쓰일 수 있다면, AI 사용 비용 최적화와 모델 라우팅 역량이 개인·기업 생산성의 핵심 변수가 될 수 있다.
- 폐쇄형 최고 성능 모델은 여전히 고난도 추론과 판단에서 우위를 가질 수 있지만, 범용 작업의 상당 부분이 저렴한 대안으로 이동하면 모델 제공사의 차별화 압박이 커질 수 있다.
- 기업 입장에서는 하나의 모델에 종속되기보다 작업 유형별로 모델을 분리하고, 클라우드·로컬·API 라우팅을 조합하는 운영 능력이 장기적인 비용과 접근성 리스크를 줄이는 방향이 될 수 있다.
- GLM 5.2처럼 큰 컨텍스트와 낮은 단가를 내세우는 모델은 리서치 초안, 자료 수집, 반복 제작, 에이전트 오케스트레이션 같은 대량 토큰 작업에서 특히 주목할 만하다.
- 검증 필요: 영상의 사례는 특정 프롬프트와 작업 환경에서의 체감 비교이므로, 실제 투자 판단이나 도입 결정에는 자체 워크로드 기준의 품질·속도·비용 테스트가 필요하다.
⚠️ 불확실하거나 확인이 필요한 부분
- 영상에서는 GLM 5.2가 1M 컨텍스트를 제공하고 753B 또는 756B급 모델로 언급되지만, 파라미터 수 표기가 서로 다르게 나타나므로 공식 모델 카드나 Z.AI 문서로 확인이 필요하다.
- GLM 5.2의 토큰 가격, 월 구독 플랜, 5시간 쿼터, 피크 시간 쿼터 배율은 영상 업로드 시점 기준일 수 있으므로 현재 Z.AI 요금표와 실제 API 정책을 별도로 확인해야 한다.
- “무거운 코딩 하루 기준 약 5배 저렴하다”는 평가는 영상 속 사용 사례와 토큰 단가 비교에 기반한 추정이므로, 자신의 워크로드에서 입력·출력 토큰 비율과 재시도 비용을 측정해야 한다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 현재 Z.AI 공식 문서에서 GLM 5.2의 모델명, 컨텍스트 길이, 파라미터 규모, 라이선스, 가격, 쿼터 정책을 확인한다.
- 기존 프로젝트와 분리된 테스트 디렉터리에서 GLM 5.2용 Claude Code 설정을 구성하고, 기본 Claude/Opus 환경과 충돌하지 않는지 확인한다.
- 실제 반복 업무를 “저위험 일반 작업”, “리서치·자료 수집”, “창의적 초안 제작”, “정밀 추론·검증 필요 작업”으로 나누고 모델 배치 기준을 만든다.
- 같은 프롬프트를 GLM 5.2와 Opus에 각각 실행해 속도, 토큰 사용량, 비용, 결과 품질, 재작업 횟수를 기록한다.
❓ 열린 질문
- 내 실제 업무에서 Opus급 정밀 추론이 필요한 작업은 전체의 몇 퍼센트이며, GLM 5.2로 대체 가능한 작업은 어디까지인가?
- GLM 5.2가 긴 컨텍스트를 제공하더라도 대형 코드베이스에서 장시간 에이전트 작업을 안정적으로 이어갈 수 있는가?
- 비용 절감 효과는 토큰 단가만으로 충분한가, 아니면 느린 실행 시간·재시도·검토 비용까지 포함하면 달라지는가?