EP 96. LLM 추론 인프라와 토큰 경제학

🖼️ 인포그래픽

EP 96. LLM 추론 인프라와 토큰 경제학 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 결론

LLM 추론 인프라와 토큰 경제학의 핵심은 모델 크기보다 긴 컨텍스트·KV cache·batch·메모리 병목을 얼마나 효율적으로 관리하느냐가 실제 비용과 경쟁력을 좌우한다는 점이다.

📌 핵심 요점

LLM 논의의 중심은 트레이닝 규모에서 추론 인프라로 이동하고 있으며, 긴 컨텍스트와 reasoning token 사용량이 실제 비용의 핵심 변수로 부상했다.
추론 비용은 단순 연산량만이 아니라 T_compute와 T_mem, 즉 계산 시간과 메모리 접근 시간이 결합해 결정된다.
prefill 단계에서는 긴 입력을 한 번에 처리해 KV cache를 만들고, decode 단계에서는 토큰을 하나씩 생성하므로 두 단계를 구분해야 비용 구조를 이해할 수 있다.
MoE, sparsity, PagedAttention, chunked prefill 같은 기법은 대형 모델을 더 적은 활성 연산과 더 효율적인 메모리 사용으로 서빙하기 위한 핵심 최적화로 설명된다.
약 200k 토큰 전후의 롱컨텍스트 임계점, cache hit 여부, HBM 보관 시간, batch size 최적화가 API 가격과 프런티어 랩의 수익성 추정에 중요한 단서가 된다.

🧩 배경과 문제 정의

LLM 논의의 중심이 모델 학습 규모와 트레이닝에서 실제 서비스 비용을 좌우하는 추론 인프라로 이동하고 있다.
Claude Code·Codex 같은 코딩 에이전트는 긴 컨텍스트, reasoning token, 반복 호출이 많아 추론 비용과 병목을 크게 만든다.
100만 토큰 컨텍스트는 프런티어 모델에서 제공되지만 실제 서빙 비용이 크며, 현실적으로 약 20만 토큰 전후에서 서비스 계층과 가격 차이가 생긴다.
DeepSeek의 핵심 의미는 긴 컨텍스트에서도 computation과 memory 사용량을 줄이는 데 있으며, 에이전트 시대에는 이 효율성이 모델 활용 가능성을 좌우한다.
GPU, HBM, CPU, 랙, GPU 간 통신, 랙 간 통신은 추론 성능과 비용을 결정하지만, 일반 사용자에게는 실제 연결 구조가 충분히 설명되지 않은 상태다.
이 영상은 Transformer 추론의 prefill·decode·KV cache 구조부터 NVL72 같은 랙 단위 인프라, batch size, memory bound, token 경제학까지 이어지는 흐름을 정리한다.

🕒 시간순 섹션별 상세정리

1. 트레이닝 중심 논의에서 추론 인프라 중심 논의로 전환 [00:00]

Dwarkesh의 새 에피소드와 칠판 설명 형식이 이번 논의의 출발점이 된다
LLM 논의는 학습 중심에서 Claude Code·Codex 같은 실제 추론 워크로드 중심으로 이동한다

2. 긴 컨텍스트 비용과 DeepSeek 효율성 [01:38]

DeepSeek 논문의 도표는 긴 token position에서 computation과 memory 비용이 커지는 문제를 보여준다
100만 토큰 컨텍스트는 가능하지만 비싸며, 현실적으로 20만 토큰 전후에서 tier가 갈린다

3. GPU 메모리 확장과 모델 아키텍처 변화 [04:04]

H100·H200 대비 GB200·GB300은 GPU당 메모리가 크게 늘어난다
72개 GPU가 한 랙 안에서 연결되면 약 20TB급 메모리 풀을 형성할 수 있다

4. LLM serving 구조와 가격 체계의 중요성 [06:04]

Dwarkesh와 Reiner Pope의 설명을 바탕으로 LLM serving 구조를 이해해야 한다
GPU 출하 시점과 모델 아키텍처 변화는 향후 성능·비용 경쟁의 선행 지표가 된다

5. 추론 가격은 계산 시간과 메모리 시간의 조합에서 나온다 [08:02]

긴 입력 구간을 넘으면 다른 가격 구간이 적용되는 이유는 하드웨어 병목과 연결된다
batch size마다 처리 시간이 달라지고, 이것이 token 가격표로 반영된다

6. Transformer 추론은 prefill과 decode로 나눠 봐야 한다 [09:35]

HBM, attention, dense block, KV cache, prefill, decode가 하나의 추론 구조를 이룬다
여기서는 training의 backward pass가 아니라 inference의 forward pass를 중심으로 다룬다

7. 긴 입력과 prefill, KV cache의 기본 구조 [12:01]

prefill은 긴 입력 토큰을 처리해 다음 토큰 생성을 준비하는 단계다
Claude Code에 긴 코드가 들어가면 전체 입력 토큰마다 QKV 계산이 발생한다

8. Autoregressive 생성과 토큰 단위 처리 [14:38]

생성된 output token은 다시 다음 단계 입력처럼 계속된다
GPT-2 Small 예시는 token마다 Q, K, V와 multi-head 흐름이 붙는 구조를 보여준다

9. Token ID와 embedding의 관계 [16:00]

예측된 token은 다시 입력으로 들어가며 다음 token 생성이 반복된다
prefill은 입력 전체에 대해 QKV를 한 번에 계산하는 기반 단계다

10. Transformer block과 QKV의 역할 [17:51]

각 token은 벡터와 위치 정보를 가진 뒤 여러 Transformer block을 통과한다
여러 layer에서 생성된 KV는 이후 token 생성 때 재활용된다

11. Causal mask와 KV 저장 비용 [20:03]

multi-head attention에서 KV가 많이 쌓이면 저장 비용이 커진다
최근 구조는 KV 압축, sparse attention, MLA 등으로 메모리 부담을 줄인다

12. MLP·MoE·autoregressive 생성 흐름 [21:06]

attention 뒤에는 FFN 또는 MLP가 이어지며 weight 규모가 크다
MoE는 여러 expert 중 일부만 활성화해 dense 계산 부담을 줄인다

13. Residual stream과 Transformer block 흐름 [24:03]

token vector는 attention과 MLP를 거치며 계속 갱신된다
residual stream은 이전 정보와 새 계산 결과를 더해 의미를 누적한다

14. LM head와 MoE의 부분 활성화 [25:45]

LM head는 마지막 token vector를 바탕으로 다음 token을 예측한다
Transformer 그림의 더하기 기호는 residual이 합쳐지는 지점을 뜻한다

15. MoE expert는 지식 분야가 아니라 token별 라우팅 단위다 [28:02]

expert를 수학·물리 전담처럼 이해하면 단순화가 지나치다
실제로는 token마다 서로 다른 expert 경로를 탈 수 있다

16. NVL72 랙 구조와 GPU 간 통신 병목 [28:43]

MoE serving에서는 GPU 안에 expert를 배치하고 고속 연결로 묶는 구성이 중요하다
rack 내부 통신은 빠르지만 rack 밖 통신은 지연이 커진다

17. Blackwell·Rubin 시대의 랙 단위 인프라 전환 [32:00]

Blackwell에서 랙 단위 인프라가 본격화되고 Rubin에서는 더 확장된다
DGX-1 이후 발전 흐름은 72개 GPU와 NVLink 기반 운용으로 계속된다

18. LLM 추론 시간 병목을 읽는 기본 관점 [33:15]

GPU 인프라가 실제 LLM serving에서 어떤 의미를 갖는지로 논의가 전환된다
ChatGPT·Claude Code·Codex는 결과를 한 번에 내지 않고 token 단위로 decode한다

19. 추론 계산 시간과 training batch의 차이 [36:00]

주요 시간 요소는 attention 연산과 dense block이다
단순화하면 parameter 수와 입력 token 수의 곱이 compute 시간을 만든다

20. Inference batch의 길이 불균형 [38:02]

inference에서는 사용자마다 입력 길이와 생성 길이가 다르다
짧은 “Hi”와 50K context 요청이 같은 batch 안에 함께 들어갈 수 있다

21. 추론 batch는 여러 사용자의 token과 KV cache를 함께 싣는다 [40:02]

한 GPU batch 안에 수많은 사용자의 workload가 묶인다
scheduler와 meta layer가 token과 사용자 매핑을 관리한다

22. GPU utilization과 MFU의 중요성 [41:28]

비싼 GPU를 놀리지 않으려면 매 step마다 workload를 채워야 한다
MFU는 GPU 이론 FLOPs 대비 실제 모델 계산 효율을 보는 지표다

23. Prefill과 decode가 batch 슬롯을 나눠 쓴다 [44:01]

decode 중인 사용자는 보통 token 1개만 batch에 넣는다
긴 prefill 요청은 batch 슬롯을 크게 점유해 다른 decode 작업을 밀어낼 수 있다

24. T_compute 계산식과 attention 누락 [45:48]

T_compute는 batch 크기와 active parameter 수에 의해 결정된다
MoE에서는 전체 parameter가 아니라 활성화된 expert parameter가 compute 비용을 좌우한다

25. 메모리 시간은 전체 weight와 token 길이에 좌우된다 [48:01]

compute는 active weight 중심이지만 memory는 전체 model weight를 HBM에 올려야 한다
batch 안의 요청별 token 길이가 달라 memory time 계산도 복잡해진다

26. Decode는 1개 token만 흐르지만 KV cache가 비용을 가른다 [49:27]

decode 입력은 직전 step에서 나온 마지막 token 1개다
이전 context는 KV cache로 남아 있고 필요한 block이 HBM에서 로딩된다

27. PagedAttention과 KV cache block 관리 [52:00]

길이가 다른 요청을 static tensor로 맞추면 padding 낭비가 크다
vLLM의 PagedAttention은 KV cache를 block 단위로 나눠 효율적으로 추적한다

28. GB300 NVL72의 메모리 구성과 weight/KV cache 경쟁 [53:42]

HBM에는 model weight와 KV cache가 함께 올라간다
GB300 NVL72 기준 HBM과 CPU 메모리가 각각 약 20TB 규모로 나온다

29. KV cache 중심의 메모리 배분 [56:00]

activation도 메모리를 쓰지만 가장 큰 비중은 KV cache가 차지한다
context와 batch가 커질수록 모든 사용자의 KV cache 유지 부담이 커진다

30. NVL72 이후 추론 환경과 memory time [57:44]

대형 모델은 학습보다 serving에서 GPU 메모리와 통신 병목이 더 크게 드러난다
NVL72 이전 8-GPU 중심 구성보다 랙 단위 연결의 이점이 커진다

31. Batch와 메모리 로딩 비용의 amortize 구조 [60:00]

현대 inference 병목은 t_compute와 t_memory를 함께 봐야 한다
batch가 커질수록 compute time은 선형적으로 증가한다

32. KV cache와 compute 기울기가 비용 곡선을 바꾼다 [61:49]

KV cache 로딩 시간은 batch와 context 길이에 따라 증가한다
compute time은 전체 parameter가 아니라 active parameter 중심으로 이해해야 한다

33. Latency lower bound와 batch 크기의 전환점 [64:00]

하드웨어 구조와 알고리즘 실행 방식이 실제 병목을 결정한다
t_mem은 KV cache와 total parameter 로딩 시간으로 구성된다

34. Latency 그래프에서 token당 cost 그래프로 전환 [66:00]

작은 task라도 weight 로딩 기본 시간이 있어 latency lower bound가 생긴다
batch 크기에 따라 memory bound와 compute bound 영향이 달라진다

35. Compute bound와 memory bound가 token 처리 시간을 제한한다 [68:00]

KV cache와 memory 항목은 batch·token 관계에 따라 다른 비용 곡선을 만든다
최종 t_memory는 KV cache 비용과 memory 비용의 합으로 본다

36. Batch size 최적점과 inference farm 경제성 [69:03]

token당 cost는 batch가 낮을 때 매우 비싸다
batch가 커지면 compute bound가 다시 한계를 만들며 최적점이 생긴다

37. Attention을 제외한 단순화 식과 sparsity 도출 [72:01]

단순화 식에서는 attention을 제외하고 memory bandwidth와 parameter 중심으로 본다
이 식은 실제 전체 시스템 비용이 아니라 근사 모델에 가깝다

38. 하드웨어 비율 300과 DeepSeek V3 기준 batch 계산 [73:47]

FLOPs와 memory bandwidth 비율은 하드웨어 세대별로 정해진다
FP4 가정에서는 FLOPs 대비 memory bandwidth 비율이 대략 300배 수준으로 추정된다

39. API 비용과 batch 효율의 경제학 [76:00]

DeepSeek API는 매우 저렴한 수준으로 나온다
일반 대화형 사용은 싸지만 코딩 워크로드는 token과 연산량이 커 비용 구조가 달라진다

40. 추론 cycle, train 비유, drain time [77:32]

sparsity와 batch 효율 논의 뒤 추론 과정을 train 비유로 보여준다
하나의 연산 cycle은 batch를 채운 뒤 약 20ms 단위로 처리되는 구조로 다뤄진다

41. HBM 전체 읽기 시간이 추론 cycle의 기준이 된다 [80:00]

GB300 기준 HBM 대역폭은 약 20TB/s로 나온다
전체 메모리를 한 번 읽는 시간은 대략 20~30ms 범위의 설계 기준이 된다

42. 20ms마다 출발하는 batch를 꽉 채우는 것이 핵심이다 [81:49]

vLLM, SGLang 같은 serving 구조는 짧은 cycle마다 최적 batch를 채우는 것이 중요하다
batch 최적값은 대략 2400~3000 수준으로 나온다

43. 긴 prefill과 짧은 decode의 충돌 [84:02]

decode는 매번 1개 token만 들어오지만 prefill은 많은 token이 한꺼번에 들어온다
긴 context 요청은 짧은 decode 작업을 밀어내며 serving 효율을 떨어뜨릴 수 있다

44. KV cache와 workload 차이가 만드는 메모리 병목 [85:41]

사용자별 context 길이가 달라 KV cache 관리가 어려워진다
workload가 커지면 병목은 compute bound에서 memory bound로 이동할 수 있다

45. 롱컨텍스트의 경제적 임계점과 200K 기준 [88:00]

긴 입력 사용자가 많아질수록 같은 GPU 클러스터에서 받을 수 있는 사용자 수가 줄어든다
약 200K 전후에서 compute와 KV cache 균형이 무너져 memory-bound가 강해진다

46. KV cache 유지·강등·삭제가 가격 차이를 만든다 [90:32]

Claude Code 같은 지속 작업은 같은 머신의 HBM에 KV cache가 남아 있으면 유리하다
사용자가 언제 돌아올지 모르기 때문에 일정 시간 cache를 유지하는 전략이 필요하다

47. Claude Code 이후 inference 병목의 중심이 context 관리로 이동 [92:01]

초기 AI 사용은 짧은 입력과 결과 확인 중심이라 부하가 상대적으로 작았다
Claude Code와 Codex 이후 reasoning token과 thought token 사용량이 급증했다

48. Dwarkesh의 flashcard와 반복 학습 [93:22]

긴 강의 중 앞부분만으로도 inference·serving 핵심 개념이 촘촘히 계속된다
Dwarkesh는 학습 내용을 flashcard로 만들었고, 한국어 번역 활용 가능성도 나온다

49. 남은 논점과 체험형 AI 전시 홍보 [96:03]

후반부의 남은 내용은 Dwarkesh 자료를 직접 따라가며 확인하는 방식이 더 적합하다고 압축된다
어린이날 전후 수원 상상캠퍼스의 어린이 대상 체험형 미디어아트 전시가 묶인다

50. Dwarkesh의 학습 방식과 긴 탐구의 마무리 [98:06]

Dwarkesh 팟캐스트는 어렵지만 지식의 최전선을 대중에게 전달하려는 성격이 강하다
인터뷰 전 약 2주간 공부하는 준비 방식이 깊은 질문의 기반이 된다고 마무리된다

🧾 결론

이 영상은 LLM 성능 경쟁을 “모델이 얼마나 똑똑한가”만이 아니라 “그 모델을 얼마나 싸고 빠르게 서빙할 수 있는가”의 문제로 재정의한다.
긴 컨텍스트가 늘어날수록 병목은 계산보다 KV cache와 메모리 대역폭 쪽으로 이동하며, 추론 인프라의 설계가 사용자 경험과 가격을 직접 결정한다.
DeepSeek 사례는 영상 속 주장 기준으로, 긴 컨텍스트 환경에서 연산량과 메모리 사용량을 줄이는 효율성이 에이전트형 AI 활용 가능성을 크게 바꿀 수 있음을 보여준다.
다만 5T·10T급 모델 서빙, 200k 최적 지점, batch 2400~3000 같은 수치는 강의 내 추정·사고실험 성격이 있으므로 외부 검증이 필요한 내용으로 분리해 봐야 한다.

📈 투자·시사 포인트

GPU 수요를 볼 때 단순 칩 성능뿐 아니라 HBM 용량, 메모리 대역폭, NVLink/NVSwitch, 랙 단위 통신, 냉각 인프라까지 함께 봐야 한다.
프런티어 AI 기업의 경쟁력은 모델 가중치 자체뿐 아니라 inference farm 운영, batch scheduling, KV cache 관리, GPU utilization을 극대화하는 엔지니어링 역량에서 나온다.
API 가격표의 input/output token 차이, cache 할인, long context tier는 단순 마케팅 가격이 아니라 실제 추론 인프라 비용 구조를 반영한 신호로 해석할 수 있다.
충분한 트래픽을 확보하지 못한 AI 서비스 사업자는 GPU 감가상각과 전력비를 회수하기 어렵기 때문에, 모델 성능보다 사용량·처리량·서빙 효율이 사업성의 핵심 변수가 된다.
검증 필요: 영상에서 언급된 특정 GPU 세대별 수치, 모델 파라미터 규모 추정, DeepSeek의 효율 개선 폭, 프런티어 랩 내부 원가 역산은 공개 자료와 대조해 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

GPT-4 계열·Claude Opus 계열이 1T~2T 규모였고 최근 5T·10T급 모델이 서빙되고 있다는 내용은 영상 속 추정에 가깝고, 각 모델 제공사가 공식 공개한 수치로 확인된 것은 아니다.
DeepSeek가 긴 컨텍스트에서 연산량을 3분의 1, 메모리 사용량을 10분의 1 수준으로 줄인다는 설명은 영상 내 해석 기준이며, 적용 모델·실험 조건·비교 대상 확인이 필요하다.
약 20만 토큰 전후에서 롱컨텍스트 서비스 계층이나 경제적 임계점이 갈린다는 설명은 추론 인프라 관점의 추정으로 보이며, 실제 공급자별 가격 정책·캐시 정책·하드웨어 구성에 따라 달라질 수 있다.
자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

LLM 추론 비용을 이해할 때 prefill, decode, KV cache, T_compute, T_mem을 별도 개념으로 정리한다.
긴 컨텍스트를 쓰는 코딩 에이전트 작업에서는 input token뿐 아니라 reasoning token, tool call로 재유입되는 context, cache hit 여부까지 비용 항목으로 본다.
API 가격표를 비교할 때 input/output token 단가만 보지 말고 캐시 유지 시간, 캐시 hit 할인, 롱컨텍스트 구간별 가격 차이를 함께 확인한다.
vLLM, SGLang, PagedAttention, chunked prefill 같은 serving 시스템 개념을 추가로 학습해 실제 추론 인프라 병목과 연결한다.

❓ 열린 질문

실제 프런티어 랩들은 롱컨텍스트 사용자와 짧은 대화 사용자를 어떤 기준으로 GPU 클러스터에 스케줄링하고 있을까?
20만 토큰 전후가 경제적 임계점이라는 추정은 Anthropic, OpenAI, Google, DeepSeek 같은 공급자별로 얼마나 다르게 나타날까?
KV cache를 HBM, CPU DRAM, flash, 더 느린 저장 계층으로 내리는 정책은 실제 서비스별로 어떤 시간 단위와 가격 차이를 만들까?

🖼️ 인포그래픽

🖼️ 4컷 인포그래픽

💡 한 줄 결론

📌 핵심 요점

🧩 배경과 문제 정의

🕒 시간순 섹션별 상세정리

1. 트레이닝 중심 논의에서 추론 인프라 중심 논의로 전환 [00:00]

2. 긴 컨텍스트 비용과 DeepSeek 효율성 [01:38]

3. GPU 메모리 확장과 모델 아키텍처 변화 [04:04]

4. LLM serving 구조와 가격 체계의 중요성 [06:04]

5. 추론 가격은 계산 시간과 메모리 시간의 조합에서 나온다 [08:02]

6. Transformer 추론은 prefill과 decode로 나눠 봐야 한다 [09:35]

7. 긴 입력과 prefill, KV cache의 기본 구조 [12:01]

8. Autoregressive 생성과 토큰 단위 처리 [14:38]

9. Token ID와 embedding의 관계 [16:00]

10. Transformer block과 QKV의 역할 [17:51]

11. Causal mask와 KV 저장 비용 [20:03]

12. MLP·MoE·autoregressive 생성 흐름 [21:06]

13. Residual stream과 Transformer block 흐름 [24:03]

14. LM head와 MoE의 부분 활성화 [25:45]

15. MoE expert는 지식 분야가 아니라 token별 라우팅 단위다 [28:02]

16. NVL72 랙 구조와 GPU 간 통신 병목 [28:43]

17. Blackwell·Rubin 시대의 랙 단위 인프라 전환 [32:00]

18. LLM 추론 시간 병목을 읽는 기본 관점 [33:15]

19. 추론 계산 시간과 training batch의 차이 [36:00]

20. Inference batch의 길이 불균형 [38:02]

21. 추론 batch는 여러 사용자의 token과 KV cache를 함께 싣는다 [40:02]

22. GPU utilization과 MFU의 중요성 [41:28]

23. Prefill과 decode가 batch 슬롯을 나눠 쓴다 [44:01]

24. T_compute 계산식과 attention 누락 [45:48]

25. 메모리 시간은 전체 weight와 token 길이에 좌우된다 [48:01]

26. Decode는 1개 token만 흐르지만 KV cache가 비용을 가른다 [49:27]

27. PagedAttention과 KV cache block 관리 [52:00]

28. GB300 NVL72의 메모리 구성과 weight/KV cache 경쟁 [53:42]

29. KV cache 중심의 메모리 배분 [56:00]

30. NVL72 이후 추론 환경과 memory time [57:44]

31. Batch와 메모리 로딩 비용의 amortize 구조 [60:00]

32. KV cache와 compute 기울기가 비용 곡선을 바꾼다 [61:49]

33. Latency lower bound와 batch 크기의 전환점 [64:00]

34. Latency 그래프에서 token당 cost 그래프로 전환 [66:00]

35. Compute bound와 memory bound가 token 처리 시간을 제한한다 [68:00]

36. Batch size 최적점과 inference farm 경제성 [69:03]

37. Attention을 제외한 단순화 식과 sparsity 도출 [72:01]

38. 하드웨어 비율 300과 DeepSeek V3 기준 batch 계산 [73:47]

39. API 비용과 batch 효율의 경제학 [76:00]

40. 추론 cycle, train 비유, drain time [77:32]

41. HBM 전체 읽기 시간이 추론 cycle의 기준이 된다 [80:00]

42. 20ms마다 출발하는 batch를 꽉 채우는 것이 핵심이다 [81:49]

43. 긴 prefill과 짧은 decode의 충돌 [84:02]

44. KV cache와 workload 차이가 만드는 메모리 병목 [85:41]

45. 롱컨텍스트의 경제적 임계점과 200K 기준 [88:00]

46. KV cache 유지·강등·삭제가 가격 차이를 만든다 [90:32]

47. Claude Code 이후 inference 병목의 중심이 context 관리로 이동 [92:01]

48. Dwarkesh의 flashcard와 반복 학습 [93:22]

49. 남은 논점과 체험형 AI 전시 홍보 [96:03]

50. Dwarkesh의 학습 방식과 긴 탐구의 마무리 [98:06]

🧾 결론

📈 투자·시사 포인트

⚠️ 불확실하거나 확인이 필요한 부분

✅ 액션 아이템

❓ 열린 질문

공통 태그

함께 탐색할 태그

관련 문서

일론 머스크가 움직입니다... SpaceX-앤트로픽 협력은 AI 인프라 경쟁 시작

나의 AI 에이전트 전환기 (w. 클로드 코드, 오픈클로)

Head of Claude Code on the future of work and productivity

클로드 코드로 100% 자동화 마케팅 에이전트 팀을 만드는 방법 (서브에이전트+스킬+MCP 모두)

클로드, 코워크, 클로드 코드, 커서, 제미나이... 언제 무슨 도구를 써야하지 고민이 된다면?

Thin Harness, Fat Skills: The New Way To Build Software