YouTube노정석·2026년 5월 8일·0

EP 96. LLM 추론 인프라와 토큰 경제학

Quick Summary

LLM 추론 인프라와 토큰 경제학 의 핵심은 모델 크기보다 긴 컨텍스트·KV cache·batch·메모리 병목을 얼마나 효율적으로 관리하느냐가 실제 비용과 경쟁력을 좌우한다는 점이다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

EP 96. LLM 추론 인프라와 토큰 경제학 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

EP 96. LLM 추론 인프라와 토큰 경제학 내용을 설명하는 본문 이미지

💡 한 줄 결론

LLM 추론 인프라와 토큰 경제학의 핵심은 모델 크기보다 긴 컨텍스트·KV cache·batch·메모리 병목을 얼마나 효율적으로 관리하느냐가 실제 비용과 경쟁력을 좌우한다는 점이다.

📌 핵심 요점

  1. LLM 논의의 중심은 트레이닝 규모에서 추론 인프라로 이동하고 있으며, 긴 컨텍스트와 reasoning token 사용량이 실제 비용의 핵심 변수로 부상했다.
  2. 추론 비용은 단순 연산량만이 아니라 T_computeT_mem, 즉 계산 시간과 메모리 접근 시간이 결합해 결정된다.
  3. prefill 단계에서는 긴 입력을 한 번에 처리해 KV cache를 만들고, decode 단계에서는 토큰을 하나씩 생성하므로 두 단계를 구분해야 비용 구조를 이해할 수 있다.
  4. MoE, sparsity, PagedAttention, chunked prefill 같은 기법은 대형 모델을 더 적은 활성 연산과 더 효율적인 메모리 사용으로 서빙하기 위한 핵심 최적화로 설명된다.
  5. 약 200k 토큰 전후의 롱컨텍스트 임계점, cache hit 여부, HBM 보관 시간, batch size 최적화가 API 가격과 프런티어 랩의 수익성 추정에 중요한 단서가 된다.

🧩 배경과 문제 정의

  • LLM 논의의 중심이 모델 학습 규모와 트레이닝에서 실제 서비스 비용을 좌우하는 추론 인프라로 이동하고 있다.
  • Claude Code·Codex 같은 코딩 에이전트는 긴 컨텍스트, reasoning token, 반복 호출이 많아 추론 비용과 병목을 크게 만든다.
  • 100만 토큰 컨텍스트는 프런티어 모델에서 제공되지만 실제 서빙 비용이 크며, 현실적으로 약 20만 토큰 전후에서 서비스 계층과 가격 차이가 생긴다.
  • DeepSeek의 핵심 의미는 긴 컨텍스트에서도 computation과 memory 사용량을 줄이는 데 있으며, 에이전트 시대에는 이 효율성이 모델 활용 가능성을 좌우한다.
  • GPU, HBM, CPU, 랙, GPU 간 통신, 랙 간 통신은 추론 성능과 비용을 결정하지만, 일반 사용자에게는 실제 연결 구조가 충분히 설명되지 않은 상태다.
  • 이 영상은 Transformer 추론의 prefill·decode·KV cache 구조부터 NVL72 같은 랙 단위 인프라, batch size, memory bound, token 경제학까지 이어지는 흐름을 정리한다.

🕒 시간순 섹션별 상세정리

1. 트레이닝 중심 논의에서 추론 인프라 중심 논의로 전환 [00:00]

  • Dwarkesh의 새 에피소드와 칠판 설명 형식이 이번 논의의 출발점이 된다
  • LLM 논의는 학습 중심에서 Claude Code·Codex 같은 실제 추론 워크로드 중심으로 이동한다

2. 긴 컨텍스트 비용과 DeepSeek 효율성 [01:38]

  • DeepSeek 논문의 도표는 긴 token position에서 computation과 memory 비용이 커지는 문제를 보여준다
  • 100만 토큰 컨텍스트는 가능하지만 비싸며, 현실적으로 20만 토큰 전후에서 tier가 갈린다

3. GPU 메모리 확장과 모델 아키텍처 변화 [04:04]

  • H100·H200 대비 GB200·GB300은 GPU당 메모리가 크게 늘어난다
  • 72개 GPU가 한 랙 안에서 연결되면 약 20TB급 메모리 풀을 형성할 수 있다

4. LLM serving 구조와 가격 체계의 중요성 [06:04]

  • Dwarkesh와 Reiner Pope의 설명을 바탕으로 LLM serving 구조를 이해해야 한다
  • GPU 출하 시점과 모델 아키텍처 변화는 향후 성능·비용 경쟁의 선행 지표가 된다

5. 추론 가격은 계산 시간과 메모리 시간의 조합에서 나온다 [08:02]

  • 긴 입력 구간을 넘으면 다른 가격 구간이 적용되는 이유는 하드웨어 병목과 연결된다
  • batch size마다 처리 시간이 달라지고, 이것이 token 가격표로 반영된다

6. Transformer 추론은 prefill과 decode로 나눠 봐야 한다 [09:35]

  • HBM, attention, dense block, KV cache, prefill, decode가 하나의 추론 구조를 이룬다
  • 여기서는 training의 backward pass가 아니라 inference의 forward pass를 중심으로 다룬다

7. 긴 입력과 prefill, KV cache의 기본 구조 [12:01]

  • prefill은 긴 입력 토큰을 처리해 다음 토큰 생성을 준비하는 단계다
  • Claude Code에 긴 코드가 들어가면 전체 입력 토큰마다 QKV 계산이 발생한다

8. Autoregressive 생성과 토큰 단위 처리 [14:38]

  • 생성된 output token은 다시 다음 단계 입력처럼 계속된다
  • GPT-2 Small 예시는 token마다 Q, K, V와 multi-head 흐름이 붙는 구조를 보여준다

9. Token ID와 embedding의 관계 [16:00]

  • 예측된 token은 다시 입력으로 들어가며 다음 token 생성이 반복된다
  • prefill은 입력 전체에 대해 QKV를 한 번에 계산하는 기반 단계다

10. Transformer block과 QKV의 역할 [17:51]

  • 각 token은 벡터와 위치 정보를 가진 뒤 여러 Transformer block을 통과한다
  • 여러 layer에서 생성된 KV는 이후 token 생성 때 재활용된다

11. Causal mask와 KV 저장 비용 [20:03]

  • multi-head attention에서 KV가 많이 쌓이면 저장 비용이 커진다
  • 최근 구조는 KV 압축, sparse attention, MLA 등으로 메모리 부담을 줄인다

12. MLP·MoE·autoregressive 생성 흐름 [21:06]

  • attention 뒤에는 FFN 또는 MLP가 이어지며 weight 규모가 크다
  • MoE는 여러 expert 중 일부만 활성화해 dense 계산 부담을 줄인다

13. Residual stream과 Transformer block 흐름 [24:03]

  • token vector는 attention과 MLP를 거치며 계속 갱신된다
  • residual stream은 이전 정보와 새 계산 결과를 더해 의미를 누적한다

14. LM head와 MoE의 부분 활성화 [25:45]

  • LM head는 마지막 token vector를 바탕으로 다음 token을 예측한다
  • Transformer 그림의 더하기 기호는 residual이 합쳐지는 지점을 뜻한다

15. MoE expert는 지식 분야가 아니라 token별 라우팅 단위다 [28:02]

  • expert를 수학·물리 전담처럼 이해하면 단순화가 지나치다
  • 실제로는 token마다 서로 다른 expert 경로를 탈 수 있다

16. NVL72 랙 구조와 GPU 간 통신 병목 [28:43]

  • MoE serving에서는 GPU 안에 expert를 배치하고 고속 연결로 묶는 구성이 중요하다
  • rack 내부 통신은 빠르지만 rack 밖 통신은 지연이 커진다

17. Blackwell·Rubin 시대의 랙 단위 인프라 전환 [32:00]

  • Blackwell에서 랙 단위 인프라가 본격화되고 Rubin에서는 더 확장된다
  • DGX-1 이후 발전 흐름은 72개 GPU와 NVLink 기반 운용으로 계속된다

18. LLM 추론 시간 병목을 읽는 기본 관점 [33:15]

  • GPU 인프라가 실제 LLM serving에서 어떤 의미를 갖는지로 논의가 전환된다
  • ChatGPT·Claude Code·Codex는 결과를 한 번에 내지 않고 token 단위로 decode한다

19. 추론 계산 시간과 training batch의 차이 [36:00]

  • 주요 시간 요소는 attention 연산과 dense block이다
  • 단순화하면 parameter 수와 입력 token 수의 곱이 compute 시간을 만든다

20. Inference batch의 길이 불균형 [38:02]

  • inference에서는 사용자마다 입력 길이와 생성 길이가 다르다
  • 짧은 “Hi”와 50K context 요청이 같은 batch 안에 함께 들어갈 수 있다

21. 추론 batch는 여러 사용자의 token과 KV cache를 함께 싣는다 [40:02]

  • 한 GPU batch 안에 수많은 사용자의 workload가 묶인다
  • scheduler와 meta layer가 token과 사용자 매핑을 관리한다

22. GPU utilization과 MFU의 중요성 [41:28]

  • 비싼 GPU를 놀리지 않으려면 매 step마다 workload를 채워야 한다
  • MFU는 GPU 이론 FLOPs 대비 실제 모델 계산 효율을 보는 지표다

23. Prefill과 decode가 batch 슬롯을 나눠 쓴다 [44:01]

  • decode 중인 사용자는 보통 token 1개만 batch에 넣는다
  • 긴 prefill 요청은 batch 슬롯을 크게 점유해 다른 decode 작업을 밀어낼 수 있다

24. T_compute 계산식과 attention 누락 [45:48]

  • T_compute는 batch 크기와 active parameter 수에 의해 결정된다
  • MoE에서는 전체 parameter가 아니라 활성화된 expert parameter가 compute 비용을 좌우한다

25. 메모리 시간은 전체 weight와 token 길이에 좌우된다 [48:01]

  • compute는 active weight 중심이지만 memory는 전체 model weight를 HBM에 올려야 한다
  • batch 안의 요청별 token 길이가 달라 memory time 계산도 복잡해진다

26. Decode는 1개 token만 흐르지만 KV cache가 비용을 가른다 [49:27]

  • decode 입력은 직전 step에서 나온 마지막 token 1개다
  • 이전 context는 KV cache로 남아 있고 필요한 block이 HBM에서 로딩된다

27. PagedAttention과 KV cache block 관리 [52:00]

  • 길이가 다른 요청을 static tensor로 맞추면 padding 낭비가 크다
  • vLLM의 PagedAttention은 KV cache를 block 단위로 나눠 효율적으로 추적한다

28. GB300 NVL72의 메모리 구성과 weight/KV cache 경쟁 [53:42]

  • HBM에는 model weight와 KV cache가 함께 올라간다
  • GB300 NVL72 기준 HBM과 CPU 메모리가 각각 약 20TB 규모로 나온다

29. KV cache 중심의 메모리 배분 [56:00]

  • activation도 메모리를 쓰지만 가장 큰 비중은 KV cache가 차지한다
  • context와 batch가 커질수록 모든 사용자의 KV cache 유지 부담이 커진다

30. NVL72 이후 추론 환경과 memory time [57:44]

  • 대형 모델은 학습보다 serving에서 GPU 메모리와 통신 병목이 더 크게 드러난다
  • NVL72 이전 8-GPU 중심 구성보다 랙 단위 연결의 이점이 커진다

31. Batch와 메모리 로딩 비용의 amortize 구조 [60:00]

  • 현대 inference 병목은 t_compute와 t_memory를 함께 봐야 한다
  • batch가 커질수록 compute time은 선형적으로 증가한다

32. KV cache와 compute 기울기가 비용 곡선을 바꾼다 [61:49]

  • KV cache 로딩 시간은 batch와 context 길이에 따라 증가한다
  • compute time은 전체 parameter가 아니라 active parameter 중심으로 이해해야 한다

33. Latency lower bound와 batch 크기의 전환점 [64:00]

  • 하드웨어 구조와 알고리즘 실행 방식이 실제 병목을 결정한다
  • t_mem은 KV cache와 total parameter 로딩 시간으로 구성된다

34. Latency 그래프에서 token당 cost 그래프로 전환 [66:00]

  • 작은 task라도 weight 로딩 기본 시간이 있어 latency lower bound가 생긴다
  • batch 크기에 따라 memory bound와 compute bound 영향이 달라진다

35. Compute bound와 memory bound가 token 처리 시간을 제한한다 [68:00]

  • KV cache와 memory 항목은 batch·token 관계에 따라 다른 비용 곡선을 만든다
  • 최종 t_memory는 KV cache 비용과 memory 비용의 합으로 본다

36. Batch size 최적점과 inference farm 경제성 [69:03]

  • token당 cost는 batch가 낮을 때 매우 비싸다
  • batch가 커지면 compute bound가 다시 한계를 만들며 최적점이 생긴다

37. Attention을 제외한 단순화 식과 sparsity 도출 [72:01]

  • 단순화 식에서는 attention을 제외하고 memory bandwidth와 parameter 중심으로 본다
  • 이 식은 실제 전체 시스템 비용이 아니라 근사 모델에 가깝다

38. 하드웨어 비율 300과 DeepSeek V3 기준 batch 계산 [73:47]

  • FLOPs와 memory bandwidth 비율은 하드웨어 세대별로 정해진다
  • FP4 가정에서는 FLOPs 대비 memory bandwidth 비율이 대략 300배 수준으로 추정된다

39. API 비용과 batch 효율의 경제학 [76:00]

  • DeepSeek API는 매우 저렴한 수준으로 나온다
  • 일반 대화형 사용은 싸지만 코딩 워크로드는 token과 연산량이 커 비용 구조가 달라진다

40. 추론 cycle, train 비유, drain time [77:32]

  • sparsity와 batch 효율 논의 뒤 추론 과정을 train 비유로 보여준다
  • 하나의 연산 cycle은 batch를 채운 뒤 약 20ms 단위로 처리되는 구조로 다뤄진다

41. HBM 전체 읽기 시간이 추론 cycle의 기준이 된다 [80:00]

  • GB300 기준 HBM 대역폭은 약 20TB/s로 나온다
  • 전체 메모리를 한 번 읽는 시간은 대략 20~30ms 범위의 설계 기준이 된다

42. 20ms마다 출발하는 batch를 꽉 채우는 것이 핵심이다 [81:49]

  • vLLM, SGLang 같은 serving 구조는 짧은 cycle마다 최적 batch를 채우는 것이 중요하다
  • batch 최적값은 대략 2400~3000 수준으로 나온다

43. 긴 prefill과 짧은 decode의 충돌 [84:02]

  • decode는 매번 1개 token만 들어오지만 prefill은 많은 token이 한꺼번에 들어온다
  • 긴 context 요청은 짧은 decode 작업을 밀어내며 serving 효율을 떨어뜨릴 수 있다

44. KV cache와 workload 차이가 만드는 메모리 병목 [85:41]

  • 사용자별 context 길이가 달라 KV cache 관리가 어려워진다
  • workload가 커지면 병목은 compute bound에서 memory bound로 이동할 수 있다

45. 롱컨텍스트의 경제적 임계점과 200K 기준 [88:00]

  • 긴 입력 사용자가 많아질수록 같은 GPU 클러스터에서 받을 수 있는 사용자 수가 줄어든다
  • 약 200K 전후에서 compute와 KV cache 균형이 무너져 memory-bound가 강해진다

46. KV cache 유지·강등·삭제가 가격 차이를 만든다 [90:32]

  • Claude Code 같은 지속 작업은 같은 머신의 HBM에 KV cache가 남아 있으면 유리하다
  • 사용자가 언제 돌아올지 모르기 때문에 일정 시간 cache를 유지하는 전략이 필요하다

47. Claude Code 이후 inference 병목의 중심이 context 관리로 이동 [92:01]

  • 초기 AI 사용은 짧은 입력과 결과 확인 중심이라 부하가 상대적으로 작았다
  • Claude Code와 Codex 이후 reasoning token과 thought token 사용량이 급증했다

48. Dwarkesh의 flashcard와 반복 학습 [93:22]

  • 긴 강의 중 앞부분만으로도 inference·serving 핵심 개념이 촘촘히 계속된다
  • Dwarkesh는 학습 내용을 flashcard로 만들었고, 한국어 번역 활용 가능성도 나온다

49. 남은 논점과 체험형 AI 전시 홍보 [96:03]

  • 후반부의 남은 내용은 Dwarkesh 자료를 직접 따라가며 확인하는 방식이 더 적합하다고 압축된다
  • 어린이날 전후 수원 상상캠퍼스의 어린이 대상 체험형 미디어아트 전시가 묶인다

50. Dwarkesh의 학습 방식과 긴 탐구의 마무리 [98:06]

  • Dwarkesh 팟캐스트는 어렵지만 지식의 최전선을 대중에게 전달하려는 성격이 강하다
  • 인터뷰 전 약 2주간 공부하는 준비 방식이 깊은 질문의 기반이 된다고 마무리된다

🧾 결론

  • 이 영상은 LLM 성능 경쟁을 “모델이 얼마나 똑똑한가”만이 아니라 “그 모델을 얼마나 싸고 빠르게 서빙할 수 있는가”의 문제로 재정의한다.
  • 긴 컨텍스트가 늘어날수록 병목은 계산보다 KV cache와 메모리 대역폭 쪽으로 이동하며, 추론 인프라의 설계가 사용자 경험과 가격을 직접 결정한다.
  • DeepSeek 사례는 영상 속 주장 기준으로, 긴 컨텍스트 환경에서 연산량과 메모리 사용량을 줄이는 효율성이 에이전트형 AI 활용 가능성을 크게 바꿀 수 있음을 보여준다.
  • 다만 5T·10T급 모델 서빙, 200k 최적 지점, batch 2400~3000 같은 수치는 강의 내 추정·사고실험 성격이 있으므로 외부 검증이 필요한 내용으로 분리해 봐야 한다.

📈 투자·시사 포인트

  • GPU 수요를 볼 때 단순 칩 성능뿐 아니라 HBM 용량, 메모리 대역폭, NVLink/NVSwitch, 랙 단위 통신, 냉각 인프라까지 함께 봐야 한다.
  • 프런티어 AI 기업의 경쟁력은 모델 가중치 자체뿐 아니라 inference farm 운영, batch scheduling, KV cache 관리, GPU utilization을 극대화하는 엔지니어링 역량에서 나온다.
  • API 가격표의 input/output token 차이, cache 할인, long context tier는 단순 마케팅 가격이 아니라 실제 추론 인프라 비용 구조를 반영한 신호로 해석할 수 있다.
  • 충분한 트래픽을 확보하지 못한 AI 서비스 사업자는 GPU 감가상각과 전력비를 회수하기 어렵기 때문에, 모델 성능보다 사용량·처리량·서빙 효율이 사업성의 핵심 변수가 된다.
  • 검증 필요: 영상에서 언급된 특정 GPU 세대별 수치, 모델 파라미터 규모 추정, DeepSeek의 효율 개선 폭, 프런티어 랩 내부 원가 역산은 공개 자료와 대조해 확인해야 한다.

⚠️ 불확실하거나 확인이 필요한 부분

  • GPT-4 계열·Claude Opus 계열이 1T~2T 규모였고 최근 5T·10T급 모델이 서빙되고 있다는 내용은 영상 속 추정에 가깝고, 각 모델 제공사가 공식 공개한 수치로 확인된 것은 아니다.
  • DeepSeek가 긴 컨텍스트에서 연산량을 3분의 1, 메모리 사용량을 10분의 1 수준으로 줄인다는 설명은 영상 내 해석 기준이며, 적용 모델·실험 조건·비교 대상 확인이 필요하다.
  • 약 20만 토큰 전후에서 롱컨텍스트 서비스 계층이나 경제적 임계점이 갈린다는 설명은 추론 인프라 관점의 추정으로 보이며, 실제 공급자별 가격 정책·캐시 정책·하드웨어 구성에 따라 달라질 수 있다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • LLM 추론 비용을 이해할 때 prefill, decode, KV cache, T_compute, T_mem을 별도 개념으로 정리한다.
  • 긴 컨텍스트를 쓰는 코딩 에이전트 작업에서는 input token뿐 아니라 reasoning token, tool call로 재유입되는 context, cache hit 여부까지 비용 항목으로 본다.
  • API 가격표를 비교할 때 input/output token 단가만 보지 말고 캐시 유지 시간, 캐시 hit 할인, 롱컨텍스트 구간별 가격 차이를 함께 확인한다.
  • vLLM, SGLang, PagedAttention, chunked prefill 같은 serving 시스템 개념을 추가로 학습해 실제 추론 인프라 병목과 연결한다.

❓ 열린 질문

  • 실제 프런티어 랩들은 롱컨텍스트 사용자와 짧은 대화 사용자를 어떤 기준으로 GPU 클러스터에 스케줄링하고 있을까?
  • 20만 토큰 전후가 경제적 임계점이라는 추정은 Anthropic, OpenAI, Google, DeepSeek 같은 공급자별로 얼마나 다르게 나타날까?
  • KV cache를 HBM, CPU DRAM, flash, 더 느린 저장 계층으로 내리는 정책은 실제 서비스별로 어떤 시간 단위와 가격 차이를 만들까?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.