YouTube언더스탠딩 : 세상의 모든 지식·2026년 4월 4일·2

[진짜 수학,AI 4편] 구글은 틀렸습니다, 메모리 수만배 필요합니다 (KAIST 전자및전기공학부 김정호 교수)

Quick Summary

에이전틱 AI 시대로의 전환은 AI 경쟁의 핵심을 알고리즘에서 메모리로 완전히 이동시켰고, 컨텍스트 엔지니어링과 KV 캐시의 곱셈 구조가 수만~억배 단위의 메모리 수요 폭발을 구조적으로 필연화하고 있다.

언더스탠딩 : 세상의 모든 지식YouTube에서 보기

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 4컷 인포그래픽

[진짜 수학,AI 4편] 구글은 틀렸습니다, 메모리 수만배 필요합니다 (KAIST 전자및전기공학부 김정호 교수)의 핵심 내용을 4단계로 요약한 인포그래픽
[진짜 수학,AI 4편] 구글은 틀렸습니다, 메모리 수만배 필요합니다 (KAIST 전자및전기공학부 김정호 교수) 핵심 내용을 4단계로 압축한 4컷 인포그래픽

🖼️ 추가 이미지

[진짜 수학,AI 4편] 구글은 틀렸습니다, 메모리 수만배 필요합니다 (KAIST 전자및전기공학부 김정호 교수) 내용을 설명하는 본문 이미지

💡 한 줄 결론

에이전틱 AI 시대로의 전환은 AI 경쟁의 핵심을 알고리즘에서 메모리로 완전히 이동시켰고, 컨텍스트 엔지니어링과 KV 캐시의 곱셈 구조가 수만~억배 단위의 메모리 수요 폭발을 구조적으로 필연화하고 있다.

📌 핵심 요점

  1. 에이전틱 AI의 초개인화는 개인 데이터 전체의 상시 보관을 전제로 하므로, AI 성능을 결정하는 것은 알고리즘이 아니라 메모리 용량과 대역폭이다. 구글·오픈AI·앤스로픽 간 알고리즘 격차는 사실상 소멸했고, 누가 더 많은 사용자 데이터를 빠르게 불러오느냐가 승패를 가른다.

  2. 프롬프트 엔지니어링을 대체하는 컨텍스트 엔지니어링은 사용자의 과거 대화, 문서, 동영상, AI 자율 수집 자료까지 모두 컨텍스트에 포함시켜 KV 캐시를 1,000~1,000,000배 확장한다. 추론 과정에서 실시간으로 학습하는 "오픈북 시험" 모델이 되면서 학습과 추론의 경계가 붕괴했다.

  3. KV 캐시 메모리 공식(시퀀스 랭스 × 배치 × 프리시전 × 헤드 수 × 2 × 레이어 수 × 헤드 디멘전)은 곱하기 구조이므로 변수 축소가 사실상 불가능하며, 사용자당 64GB에서 수천만 동시접속까지 확장하면 사실상 억배 단위의 메모리가 필요하다.

  4. AI 추론 지연은 KV 캐시 계산(레이턴시)보다 메모리 밴드위스에 의한 토큰 출력 시간이 지배적이며, 해결을 위해 HBM4의 라인 두 배 확장, 라인당 속도 향상, 다층 버스(PAM) 도입이 동시에 진행된다. 광통신은 원격 메모리 연결의 보조 수단일 뿐 근접 배치를 대체하지 못한다.

  5. 숏텀 메모리(HBM·HBF)와 롱텀 메모리(NAND 플래시) 모두 수요가 폭증하며, 삼성·SK하이닉스·마이크론은 물론 샌디스크·웨스턴디지털 등 전통 저장 기업까지 수혜 범위가 확대되고, 일론 머스크의 테라 파운더리 구상과 엔비디아의 메모리 공급망 확보 경쟁으로 이어지고 있다.

🧩 배경과 문제 정의

  • AI가 판별형(알파고) → 생성형(글/그림 생성) → 에이전트형으로 진화하면서, 개인의 모든 데이터를 축적해 초개인화 서비스를 제공하려는 방향으로 전환되고 있다.
  • 초개인화가 되려면 사용자의 대화 기록, 문서, 이메일, 위치 정보, 음성 등 개인 데이터 전체를 상시 보관해야 하므로 반도체 메모리 수요가 폭발적으로 증가한다.
  • 구글, 오픈AI, 앤스로픽 등 경쟁사 간 알고리즘 격차는 거의 사라졌고, 승패를 가르는 핵심은 누가 더 많은 개인 데이터를 확보하고 빠르게 불러오느냐로 귀결된다.
  • AI의 체감 성능은 결국 메모리의 대역폭과 용량에 의해 결정되며, 현재 메모리 용량 부족으로 과거 데이터를 지우는 구조가 한계로 지적된다.

🕒 시간순 섹션별 상세정리

1. 메모리 공장을 지어야 할 때 [00:00]

  • 텍사스 사막 위에 현대차·삼양 라면 공장이 아니라 메모리 공장을 세워야 할 시점이라고 강조한다.
  • 메모리 공장을 세워도 완공까지 3년 이상 소요되며, 수율 향상과 HBM·HBF 적층 기술 등 축적된 노하우가 필요해 쉽게 진입할 수 없다.
  • 현재 메모리 수요 급증의 심각성을 극적인 비유로 전달한다.

2. 수학 공식 세 개로 AI·반도체 미래를 예측한다 [01:10]

  • 김정호 교수가 AI 에이전트 시대의 반도체 메모리 수요 증가를 설명하는 데 중학생도 이해할 수 있는 수식 세 개가 가능하다고 밝힌다.
  • 삼성·SK하이닉스 순익 200조 원 초과 등 실제 산업 수치와의 연관성을 수식으로 풀어보겠다고 설명한다.
  • 이번 에피소드가 수학 시리즈 중 가장 어려울 수 있으나, 전 국민이 경제 활동·AI 활용·반도체 투자 관점에서 맛볼 수 있도록 구성했다.

3. 판별형 → 생성형 → 에이전트 AI로의 진화 [03:01]

  • 알파고 시절의 인공지능은 판별형으로, 사진에서 강아지와 호랑이를 구분하는 수준이었다.
  • 작년까지는 글쓰기·그림·음악·동영상 생성이 가능한 생성형 인공지능이 주류였다.
  • 작년 말부터 에이전트형 AI 시대로 전환되고 있으며, 이것이 수학적으로 전혀 다른 요구를 만들어낸다고 설명한다.

4. 에이전틱 AI의 두 가지 핵심 동기 [03:42]

  • 첫째, 개인 데이터를 최대한 수집해 개인 맞춤형 서비스를 제공하겠다는 목표가 있다.
  • 둘째, AI와 소프트웨어가 생태계를 구축해 광고·수수료·사용료를 징수하는 수익 모델을 만든다.
  • 작년까지의 생성형 AI는 그림·글을 보여주는 수준이었으나, 에이전틱 AI는 사용자가 돈을 쓸 수밖에 없는 상황을 설계한다.

5. 초개인화와 개인 데이터 전체 수집의 필연성 [04:43]

  • 에이전틱 AI의 핵심은 인간을 대리하는 '초개인'으로, 나보다 나를 더 잘 아는 존재를 만들겠다는 목표다.
  • 초개인화가 작동하려면 대화 기록, 프롬프트, AI 피드백, 문서, 이메일, 위치 정보, 음성 데이터 등 개인 정보 전체를 수집해야 한다.
  • 건강·교육 등 분야별로 개인의 강점과 약점을 파악해 상황에 맞춘 맞춤형 보고서와 대응을 제공해야 한다.
  • 이 모든 기록을 저장해야 하므로 메모리 수요가 필연적으로 증가한다.

6. 동영상 중심 데이터로 메모리 수요 가속 [05:56]

  • 생성형 인공지능에 비해 에이전틱 AI는 파일 사이즈가 훨씬 크고, 특히 동영상 데이터가 많이 포함된다.
  • 텍스트 위주의 생성보다 필요한 데이터 용량이 배로 높아지며, 이것이 메모리 수요 증가의 직접적 원인이 된다.
  • 개인 정보를 즉석에서 불러와 바로 결과를 내려면 대용량 고속 메모리가 필수다.

7. 경쟁 우위의 이동: 알고리즘에서 데이터로 [07:04]

  • 구글 제미나이, 앤스로픽 클로드, 오픈AI 등 경쟁사 간 알고리즘 격차는 거의 사라졌고, 모두 수학의 게임에서 비슷한 수준에 도달했다.
  • 작년까지 성능 차이는 GPU 연산 속도에서 왔으나, 초개인화된 에이전틱 AI 시대에는 누가 더 많은 데이터를 보유하느냐가 승패를 결정한다.
  • 데이터를 많이 가진 쪽이 사용자에게 더 잘 맞는 즉각적 대답을 제공할 수 있다.

8. AI 성능은 메모리에서 온다 [08:22]

  • 병원 차트 비유를 통해, 자주 오는 환자의 기록은 책상 밑에 두지만 3년 만에 온 환자는 창고에서 찾아야 하는 것처럼, AI도 과거 데이터를 빠르게 불러올 수 있는 가까운 메모리가 필요하다고 설명한다.
  • HBM·HBF 같은 고용량 고속 메모리가 필수적이며, AI의 체감 성능 만족도는 메모리 대역폭과 용량으로 결정된다는 게 교수의 핵심 주장이다.
  • 현재 AI는 며칠 전까지만 기억하고 과거 데이터는 용량 부족으로 삭제하는 구조인데, 이 경우 엉뚱한 답변이 나올 수 있다.
  • 유료 사용자에게는 항상 충분한 메모리를 할당하고, 무료 사용자는 기록을 빠르게 지우는 식의 차등 운영이 예상된다.

9. AI 선점 경쟁의 본질은 메모리 인프라 전쟁 [10:00]

  • 새벽 배송 업체가 인프라를 먼저 깔아야 시장을 장악하듯, AI도 메모리를 먼저 확보해야 사용자를 묶어둘 수 있다.
  • 사용자가 특정 AI에 습관적으로 들어가 얽히게 만드는 것이 현재의 선점 경쟁이며, 서비스 품질보다 메모리 기반 인프라가 승패를 가른다.
  • 동네 가게 주인이 단골을 기억하듯, AI도 사용자를 기억하고 친절하게 대하려면 먼저 대용량 메모리를 깔아야 한다.

10. 숏텀 메모리와 롱텀 메모리의 이분법 [11:35]

  • 숏텀 메모리는 실시간 행렬 연산, 빠른 반응에 쓰이며 HBM·HBF가 여기에 가깝다.
  • 롱텀 메모리는 개인의 평생 데이터, CCTV 기록, 모든 과거 기록을 저장하는 용도로 NAND 플래시가 필요하다.
  • 하드디스크·웨스턴디지털 같은 전통 저장 기업들의 주가 상승도 롱텀 메모리 수요 폭증과 연관된다.
  • 젠슨 황이 삼성·하이닉스·마이크론·샌디스크와 관계를 맺는 이유도 숏텀·롱텀 메모리 모두가 AI 성능을 좌우하기 때문이다.

11. 일론 머스크의 테라와 메모리·패키징 전략 [12:52]

  • 일론 머스크가 "테라"라는 이름으로 파운더리·메모리·패키징 회사를 짓겠다고 발표했다.
  • 김정호 교수 연구실 이름도 "테라랩"인데, 테라바이트급 대용량 데이터를 다룬다는 의미에서 같은 어원을 공유한다.
  • 머스크도 숏텀·롱텀 메모리가 AI 성능을 결정한다는 점을 인지한 것으로 보이며, GPU와 HBM을 묶는 패키징 공장까지 아우르는 수직 계열화를 시도한다.

12. 에이전틱 AI의 기술적 요구사항 정리 [13:37]

  • 에이전틱 AI가 되려면 LLM 기반에 대용량 메모리, 그리고 외부 툴(엑셀, PPT, 유튜브, 이메일 등) 접근 능력이 필요하다.
  • 사용자의 리퀘스트에 대해 thinking→acting→observing→feedback 루프를 돌며 최적의 결과를 제공하는 구조다.
  • 소프트웨어뿐 아니라 메모리에 직접 접근하고 기존 도구들을 시퀀스로 연결하는 능력이 에이전틱 AI의 핵심 차별화 요소다.

13. 컨텍스트 엔지니어링의 등장 배경 [14:25]

  • 프롬프트 엔지니어링은 텍스트로만 지시를 내리는 방식이어서 사용자 의도를 충분히 전달하지 못하는 한계가 있다.
  • 과거 자신이 만든 PPT, 여행 계획서 등 실제 파일을 첨부하면 AI가 사용자의 스타일과 의도를 훨씬 정확하게 파악한다.
  • 텍스트만으로 안 되니까 파일·문서를 첨부하고, 웹사이트를 지정해서 참조하게 하는 방식으로 진화했다.

14. 프롬프트에서 컨텍스트로의 패러다임 전환 [15:48]

  • 기존 프롬프트 엔지니어링은 "말로만 하는 것"이었으나, 이제는 파일·문서를 첨부하고 검색 결과를 직접 지정하는 방식이 주류가 되었다.
  • 제미나이 등 최근 AI 서비스에서 파일 첨부, 검색 지정, 클릭 기반 자료 선택이 가능해진 것이 이 흐름의 구체적 증거다.
  • AI에게 "이렇게 해 달라"고 할 때 자료도 같이 주는 방식을 컨텍스트 엔지니어링이라 부르며, 프롬프트 엔지니어링보다 상위 개념으로 자리잡았다.

15. 학습과 추론의 경계 붕괴, 실시간 오픈북 모델 [17:48]

  • 과거에는 사전 학습(pretraining) 단계에서 모든 학습이 끝났고, 추론(inference)은 이미 배운 것만 활용했다.
  • 그런데 프리트레이닝 시점 이후의 최신 정보나 개인 정보는 모델에 없으므로, 추론 과정에서 사용자 자료를 주면서 실시간으로 학습시키는 방식으로 바뀌고 있다.
  • 사전 학습과 추론이 분리되지 않고, 추론하면서 동시에 배우는 "오픈북 시험" 모델이 된 것이다.

16. 컨텍스트 엔지니어링이 메모리 수요를 다시 폭증시키는 이유 [18:45]

  • 2024년 가을 이후 AI 실력의 기준이 프롬프트를 잘 다루는 것에서 컨텍스트를 잘 구성하는 것으로 이동했다.
  • AI가 사용자 질문에 답할 때 보이지 않는 뒤에서 관련 파일·과거 기록을 자동으로 찾아 참조하며 답을 생성한다.
  • 사용자가 첨부한 자료는 물론 AI가 스스로 과거 기록을 가져와 참조하므로, 대용량 메모리를 빠른 접근 속도(대역폭)와 함께 갖춰야 한다.
  • 백과사전 한 권을 통째로 저장해 두고 질문이 들어오면 가나다순으로 즉시 찾아 답해야 하므로, 용량과 대역폭이 동시에 필요하다.

17. 데이터 양이 곧 AI 지능이다 [20:00]

  • 데이터를 가능한 한 많이 쏟아부으면 그것이 곧 더 똑똑한 AI를 만든다는 주장이 등장한다.
  • AI가 똑똑해지는 핵심 요인이 행렬 연산이 아니라 빠르고 대용량의 기억, 즉 메모리 용량에 있다는 인식으로 이동하고 있다.
  • 컨텍스트를 결정하는 것은 결국 데이터의 양과 속도이며, 단순히 많은 자료를 제공하는 것이 최선의 성능으로 이어진다.

18. AI는 잊지 않는다: 영구 기억의 의미 [21:30]

  • 인간은 과거 기록을 잊어버리기 때문에 용서와 화해가 가능하지만, AI는 모든 것을 갖고 있어 과거가 영구히 보존된다.
  • AI도 인간처럼 과거의 쓸데없는 기억을 지울 수는 있지만, 그렇게 하면 인간과 비슷해져 경쟁력이 떨어진다.
  • 개인 기록은 사람이 죽어도 지워지지 않을 가능성이 높으며, 이는 곧 개인의 역사책이 되지만 그만큼 메모리 비용이 누적된다.

19. 클라우드와 프라이버시: 개인 메모리의 딜레마 [22:40]

  • 개인이 자신의 PC에 메모리를 쌓아두고 AI가 필요할 때만 접근해 일하게 하려는 접근(MCP, 멀티컨텍스트 프로토콜)은 기술적으로 가능하다.
  • 그러나 현실적으로는 CD에서 스트리밍, 비디오 대여에서 넷플릭스로 옮겨간 것처럼 클라우드 기반 중앙 집중 방식으로 수렴할 가능성이 높다.
  • 개인 데이터를 나만의 AI가 독점한다는 소망은 있지만, 구조적으로 보장되지 않으며 생태계 안으로 편입되는 흐름이 반복된다.

20. 자본 투자와 생태계 편입 전략 [24:30]

  • 유료 서비스 가입 시 대용량 저장 공간을 무료로 제공하는 방식은 사용자를 생태계 안으로 끌어들이는 전형적인 유인책이다.
  • 초창기에 막대한 자본 투자가 들어가며, 일부 기업은 100년 채권까지 발행하며 장기 인프라 확충에 나서고 있다.
  • 편리함을 무료로 제공한 뒤 이후 비용을 부과하는 구조는 이메일, 사진 저장 등 여러 서비스에서 이미 검증된 패턴이다.

21. 컨텍스트 엔지니어링의 네 가지 요소 [25:07]

  • 에이전틱 AI가 되려면 상황 인식, 안전한 개인화, 신뢰 등 복잡한 문제를 해결해야 하며, 그 기반이 컨텍스트 엔지니어링이다.
  • 필수 요소는 프롬프트, 기억 장치, 소프트웨어 조작 능력, 외부 인터넷 데이터 접근 네 가지이며, 과거에는 프롬프트만으로 충분했으나 이제는 네 요소의 결합이 필요하다.
  • 외부 정보 접근에는 이메일, 유튜브, 인터넷 검색 등이 포함되며, 이 중 기록을 모두 담아야 하는 메모리가 프롬프트보다 더 중요하다는 것이 강조된다.

22. 프롬프트를 넘어선 메모리의 우위 [26:03]

  • 프롬프트는 문자열에 불과하지만, 컨텍스트 엔지니어링은 기억·외부 정보·도구를 결합해 환각을 방지할 수 있는 구조를 만든다.
  • 정확한 소스가 있는 기억 시스템은 환각 방지에 직결되며, 이전 질문과 답변을 연속적으로 기억해 대화의 맥락을 유지한다.
  • 핵심 주장은 "컨텍스트 엔지니어링에서 가장 중요한 동그라미는 프롬프트가 아니라 메모리다"라는 것이다.

23. KV 캐시: 어텐션의 행렬 표현 [26:45]

  • 트랜스포머 모델의 어텐션은 단어 간 연관 관계를 점수화한 것이며, 이를 행렬로 표현한 것이 KV 캐시이다.
  • 키(K)와 밸류(V)로 구성되며, 단어가 100개면 100×100 행렬이 되어 컨텍스트가 커질수록 행렬 크기가 제곱으로 증가한다.
  • 컨텍스트 엔지니어링에서는 이 행렬이 100만 개 이상으로 확장되며, 이미지나 동영상이 포함되면 텍스트보다 훨씬 더 큰 행렬이 필요하다.

24. 컨텍스트 길이의 폭발적 확장과 저장소 한계 [28:05]

  • 현재 유료 AI 서비스의 컨텍스트 길이는 약 100K 수준이어서 PPT 100장이나 긴 동영상 처리에 제약이 있다.
  • 향후 100만 개, 나아가 100만 배까지 확장될 것으로 예상되며, 개인 평생 의료 기록 등 실생활 데이터까지 모두 수용해야 한다.
  • AI의 능력은 결국 KV 캐시의 크기에 의해 결정되며, HBM만으로는 감당할 수 없어 GPU 옆에 테라비트급 저장소가 필요해질 것이라는 주장이 제기된다.

25. 컨텍스트 엔지니어링과 KV캐시의 폭발적 증가 [30:00]

  • 사용자의 단순한 질문 배후에도 과거 대화, 맥락, 관련 파일들이 대량으로 첨부되어 결과가 생성된다.
  • 컨텍스트 엔지니어링이 도입되면서 KV캐시 사이즈가 1,000배에서 1,000,000배까지 증가한다.
  • 캐시가 커지면 그만큼의 메모리 용량이 필요하고, GPU가 빠르게 데이터를 읽어오기 위한 대역폭도 함께 늘어나야 한다.
  • K와 V 행렬을 지속적으로 활용해 확률적으로 가장 높은 토큰을 출력하는 구조이므로 캐시 축소가 쉽지 않다.

26. 에이전틱 AI의 토큰 기하급수적 팽창 [31:00]

  • 에이전틱 AI가 되면서 입력 토큰 수가 기하급수적으로 늘어나며, AI가 스스로 자료를 검색·수집하는 과정까지 모두 토큰으로 처리된다.
  • 수집 대상에 동영상이 포함되고, 사용자가 직접 지정하지 않아도 개인 맞춤형 자료를 자동으로 긁어오는 과정도 토큰으로 계산된다.
  • 과거 질문 결과도 모두 토큰으로 제공되어 동일 질문에 즉각 응답이 가능해지지만, 저장 부담은 계속 누적된다.
  • 안경형 디바이스로 하루 종일 보고 듣는 데이터를 실시간으로 처리하려면 그 모든 스트림이 토큰으로 들어간다.

27. 스마트 글래스와 실시간 AI 에이전트 시나리오 [32:00]

  • 중국에서도 스마트 글래스가 출시된다는 소식이 있으며, 사용자가 보는 모든 것을 데이터로 활용한다는 점이 핵심이다.
  • 배터리 문제 등 현실적 한계는 있지만, 안경에서 데이터센터로 동영상을 인터넷을 통해 전송하는 방식도 가능하다.
  • 안경을 쓰고 특정 인물을 인식하면 즉시 신원을 파악해 인사까지 안내하는 수준의 에이전트 기능이 현실적으로 가능하다.
  • 이 모든 실시간 인식과 응답 과정에서 막대한 컨텍스트가 생성되어 KV캐시 부담으로 직결된다.

28. 라마 3.3 모델의 KV캐시 메모리 한계 [33:00]

  • 라마 3.3 70B 모델의 컨텍스트 길이는 128K로, 아직 메가 토큰 수준에 도달하지 못했다.
  • 이 조건에서도 KV캐시 메모리 용량이 약 89GB에 달하며, GPU 옆 HBM 4를 8개 장착해 총 256GB인데 한 모델 처리가 거의 전량을 차지한다.
  • 토큰 사이즈가 100만, 즉 10배에서 100배로 늘어나면 KV캐시는 비례 내지 제곱에 비례해 테라바이트 단위로 확장된다.
  • 메모리가 물리적으로 멀리 있으면 KV캐시를 읽어오는 데 지연이 발생해 사용자 체감 응답성이 크게 떨어진다.

29. 메모리 병목이 AI 경쟁력을 가른다 [34:00]

  • HBM 외에도 SSD 등 대용량 저장이 필요해지며, 메모리 요구 조건 해결이 AI 사업 최대 현안으로 부상했다.
  • 현재 알고리즘상 컨텍스트 길이가 길어지고 퍼스널라이즈가 진행되면 KV캐시가 커질 수밖에 없는 구조다.
  • KV캐시를 생략하거나 줄이려는 연구는 나오고 있지만, 근본적인 해결책으로 보기 어렵다는 판단이다.
  • AI 성능과 경쟁력을 가로막는 두 가지 핵심 요인은 메모리 용량 부족과 데이터를 빠르게 읽어오는 대역폭 문제다.

30. 돈과 시간의 트레이드오프 [35:00]

  • 메모리 자원이 부족하면 AI 응답을 기다려야 하고, 개인 맞춤형 답변을 얻기 어려워지는 구조다.
  • 새벽 배송, 프리미엄 배달, 당일 화물 등 비유에서 보듯 빠르고 정확한 서비스에는 추가 비용이 수반된다.
  • 개인 비서가 있으면 즉시 처리되는 작업도 직접 하려면 시간이 걸리는 것과 동일한 원리다.
  • 이 트레이드오프의 본질을 수식으로 설명하기 위해 첫 번째 공식을 도입한다.

31. KV캐시 메모리 공식의 변수 분석 [35:45]

  • KV캐시 저장에 필요한 메모리는 시퀀스 랭스(컨텍스트 길이) × 배치(동시 사용자 수) × 프리시전(소수점 정밀도) × 헤드 수 × 2(K와 V) × 레이어 수 × 헤드 디멘전의 곱으로 계산된다.
  • 시퀀스 랭스는 입력 크기(PDF, 동영상, AI 자율 수집 자료 포함)를 의미하며, 클수록 서비스 품질이 높아진다.
  • 배치는 동시 사용자 수로 10만 명이 될 수 있으며, 덧셈이 아닌 곱하기로 작용하는 것이 핵심이다.
  • 프리시전은 소수점 자릿수 선택으로, 싼 서비스는 낮은 정밀도, 정확한 결과는 높은 정밀도가 필요하며 이것도 곱하기 변수다.
  • 헤드는 국어·영어·수학처럼 여러 과목을 동시에 다루는 구조이며, K와 V 각각의 행렬이 존재해 기본적으로 2배가 된다.
  • 레이어는 딥러닝의 깊이, 즉 망을 몇 층까지 쌓느냐를 의미하며 깊을수록 똑똑해지지만 메모리도 선형 증가한다.
  • 파란색으로 표시된 변수들은 모델 설계자의 선택사항이지만, 시퀀스 랭스와 배치는 사용자·시장 요구에 의해 결정된다.

32. 곱하기 구조의 불가피성과 물리적 한계 [38:30]

  • 열배 × 열배 × 열배가 천배가 되는 곱하기 구조이므로, 구글·오픈AI·아마존이 성능을 늦출 이유가 없다면 변수 축소는 사실상 불가능하다.
  • 압축이나 효율적 배치(자주 쓰는 데이터를 앞에, 공유 가능한 것은 병렬) 등 알고리즘적 완화 연구는 존재한다.
  • 그러나 곱하기를 근본적으로 덧셈으로 바꾸지는 못하며, 논문 수준의 개선은 있어도 기본 구조는 변하지 않는다.
  • 1억 국민이 매일 밥을 먹어야 하는 것처럼, 사용자 수 × 1인당 요구량이라는 물리적 총량은 줄일 수 없다.
  • 밥 공장의 효율은 높일 수 있어도 1인당 밥상의 크기와 쌀알 개수, 즉 개인이 필요로 하는 메모리 총량은 줄일 수 없다.

33. 머니 게임 → 전기 게임 → 메모리 게임 [40:02]

  • AI 사업의 수익 구조가 "배치만 해도 사용자가 늘어나니 최대 용량을 계속 늘려야 하는" 형태라 무한 투자가 강제된다.
  • 100년치 채권 발행 등 머니 게임, 그 밑에 전기 게임, 그 밑에 메모리 게임이라는 3단 구조로 산업이 전개되고 있다.
  • 이 곱셈 공식은 컨텍스트 엔지니어링 시대에 "가장 무서운 공식"이며 평생 기록해둘 필요가 있다.
  • 리자 수가 한국에 오거나 삼성·하이닉스 직원이 1억 보너스를 받는 현상도 이 공식으로 설명 가능하다.

34. 천배·억배 메모리와 AI의 존속 가능성 [41:00]

  • 현재 기준에서도 세 배 이상 필요한데, 수백 배에서 수천 배가 아니라 사실상 억배 단위의 메모리가 필요할 것으로 추정된다.
  • 비용과 전기 요금을 누가 감당하느냐는 문제로, AI의 성공 여부가 의외로 메모리 비용 때문에 좌우될 수 있다.
  • 인류가 "그만하자"고 결론내릴 수준의 비용 압박이 올 수 있다는 경고다.

35. 일론 머스크의 메모리 공장 구상과 현실적 장벽 [41:28]

  • 머스크가 자체 메모리 공장을 짓겠다는 판단을 올해 초에 내린 것으로 보인다.
  • 삼성·하이닉스에 "더 만들어 달라"는 수준이 아니라 인수나 자체 생산으로 가야 한다는 분석이다.
  • 메모리 공장 완공 후 양산까지 3년 정도 소요되며, HBM·HBF는 수율 확보와 적층 기술이 필요해 쉽지 않다.
  • 당분간 2~3년은 이 곱셈 공식이 유효할 것으로 판단한다.

36. HBM/HBF 배치 vs 원격 메모리와 광통신 [42:26]

  • 성능 극대화를 위해서는 메모리를 GPU 바로 옆에 배치하는 HBM/HBF가 정석이지만, 이렇게 하면 한국 기업에 자금이 집중된다.
  • 엔비디아는 원격에 대규모 팩토리를 구축하고 광통신(CXL)으로 연결하는 접근을 병행하고 있다.
  • 랜드플래시(Land Flash) 수요가 급증하며, 멀리 떨어진 메모리를 빠르게 가져오기 위해 광통신 기술이 주목받는다.
  • 원격이든 인접이든 메모리 자체의 곱셈 요구량은 변하지 않으며, 기술로 완화할 수는 있어도 물리적 한계는 회피 불가하다.

37. 곱셈 수식의 단순성과 구조적 필연성 [43:48]

  • 중학생도 이해할 수 있는 단순한 곱셈이지만, 생각할수록 가슴이 울릴 정도로 중요한 핵심 공식이다.
  • 완화 기술이 부담을 줄이더라도, 줄어든 여유분에 더 큰 부하가 다시 채워지는 구조적 압박이 존재한다.
  • 트랜스포머 모델 가정, 컨텍스트 엔지니어링 기법, 에이전틱 AI 등장이라는 세 가지 조건이 이 수식을 필연적으로 만든다.
  • 컴퓨터 구조(폰 노이만 구조) 자체가 메모리를 왕복하는 형태이므로 근본적 재설계가 없으면 곱셈 구조는 유지된다.

38. 일인당 64GB에서 수천만 동시접속까지 [45:55]

  • 단순 계산으로 컨텍스트 처리 시 사용자 1명당 약 64GB 메모리가 산출된다.
  • 100명이 동시 사용하면 6.4TB, 수천만 명이 동시에 사용하면 사실상 땅덩어리 전체가 메모리로 덮여야 하는 수준이다.
  • GPU 공장이 운동장 하나라면, 메모리는 100개 운동장 규모가 될 것이라는 추정이다.
  • 현재 삼성·하이닉스·마이크론의 생산 능력으로는 턱없이 부족하다는 판단이다.

39. 메모리 전략과 지정학적 리스크 분산 [47:02]

  • 곱셈 수식의 함의를 업계 전체가 빠르게 인식할 것이며, 올여름쯤이면 각국 정상도 이 문제를 인지할 것으로 예상된다.
  • 테라패브(TeraFab) 등 미국 내 자체 메모리 팹 구상은 머스크식 "할 수 있겠냐"→"스페이스X도 그랬다"의 연장선에 있다.
  • 한국에서 고성능 메모리를, 텍사스에서 저성능 메모리를 만드는 식의 리스크 분산이 현실적 대안으로 논의된다.
  • 한국 입장에서는 기회이자 동시에 위기인, 시장이 너무 커져 버린 상황이다.

40. 메모리 용량에서 대역폭·스루풋으로 [49:01]

  • 128K 컨텍스트가 메가·기가 단위로 확장되면 메모리 용량뿐 아니라 대역폭과 스루풋도 같이 병목이 된다.
  • 모델 크기가 핵심이던 시대에서 KV 캐시 사이즈와 컨텍스트 길이가 핵심으로 넘어간다.
  • 메모리를 저장해두고 쓰더라도, 비워지면 다시 채워야 하므로 용량과 속도의 밸런스가 맞아야 한다.
  • 대역폭(공식 2)과 스루풋(공식 3)이 메모리 용량 공식에 이어 추가로 고려해야 할 핵심 변수다.

41. KV 캐시와 레이턴시·스루풋의 구분 [50:01]

  • 컨텍스트 길이가 길어지면 GPU 여러 대가 동시에 행렬 처리하여 KV 캐시를 생성한다.
  • KV 캐시를 만드는 시간을 레이턴시라 부르며, 사용자가 GPT에 질문했을 때 첫 단어가 튀어나오는 시간에 해당한다.
  • KV 캐시 생성 후 단어를 하나씩 쏟아내는 속도를 스루풋이라 하며, 이는 메모리 밴드위스가 충분할 경우 메모리 밴드위스가 결정한다.
  • 전기 신호의 저항 한계로 구리 기반 통신은 약 100 Gbps 수준에 머무른다.

42. GPU-HBM 근접 배치와 광통신의 한계 [51:23]

  • GPU와 HBM을 최대한 가까이 붙여 저항을 줄이는 것이 기본 설계 전략이다.
  • 광통신은 멀리 보내는 데 유리하지만, 광-전 변환 시 열 소모가 발생하고 섬유 채널 수가 16개 정도로 제한되어 근접 통신에는 구리가 더 유리하다.
  • HBM3에서 HBM4로 넘어가면서 데이터 라인이 1024개에서 2048개로 두 배 증가한다.
  • 라인 수 증가, 라인당 속도(기가BPS) 향상, 다층 버스(PAM) 도입의 세 가지 요소가 조합되어 메모리 밴드위스를 결정한다.

43. 세대별 성능 두 배의 압력과 젠슨 황의 딜레마 [52:55]

  • 새로운 GPU를 내낼 때마다 성능이 두 배로 좋아져야 소비자가 구매하는데, 실질적 성능 향상은 GPU가 아닌 메모리 용량·밴드위스 확대에 달려 있다.
  • 컨텍스트 길이가 길어지면서 용량과 밴드위스 요구가 동시에 증가하여, 메모리 쪽에서 싸게 용량을 늘리면서도 밴드위스를 높여야 하는 모순적 요구가 발생한다.
  • HBM4에서 라인 두 배 확보만으로도 첫 단어 이후 토큰 출력 속도가 체감 가능하게 빨라진다.

44. 라인당 속도 기술과 브로드컴의 IP 비즈니스 [54:00]

  • 라인 수 확장 외에 라인당 전송 속도를 높이는 고급 회로 기술이 필요하며, 이는 구현 난이도가 더 높다.
  • 엔비디아의 NV링크가 대표적인 고속 전송 회로 기술이며, 브로드컴도 동종 기술을 보유하고 있다.
  • 브로드컴은 이 고속 회로 IP를 여러 반도체 설계사에 판매하는 비즈니스 모델로 경쟁력을 확보하고 있다.

45. AMD의 GPU 진입과 생태계 장벽 [54:39]

  • AMD는 CPU와 GPU를 모두 생산하지만, 현재는 엔비디아 GPU 시장 침투에 더 큰 관심을 두고 있다.
  • 소프트웨어 생태계가 엔비디아 CUDA 기반으로 구축되어 있어 AMD GPU로 전환하려면 소프트웨어 전면 교체가 필요하다.
  • 엔비디아 제품이 고가이기 때문에 일부 사용자가 AMD GPU를 시도하는 추세가 나타나고 있다.
  • CPU 수요 자체도 증가하겠지만 GPU 대비 증가 폭과 가격 모두 제한적일 것으로 판단된다.

46. 다층 버스(PAM)와 GPU 성능의 유일한 확보 수단 [55:25]

  • 라인 확장과 속도 향상이 한계에 도달하면 HBM5·6 세대에서 다층 버스(PAM) 방식을 도입하게 된다.
  • 다층 버스는 소프트웨어가 아닌 입출력 전자 회로 기술이다.
  • AI 추론 시 "생각하는" 구간은 GPU가 담당하고, 정답이 한 번 나오기 시작하면 쏟아지는 출력은 메모리 밴드위스가 담당한다.
  • GPU 자체 성능을 높이는 유일한 방법은 GPU 간 광통신 연결뿐이며, 이 경우 GPU 개수에 비례하여 성능이 확장된다.

47. 추론 시간의 두 가지 수식과 메모리 밴드위스의 지배적 역할 [57:44]

  • 첫 번째 수식은 KV 캐시 계산량을 GPU 연산 능력으로 나눈 것으로, 레이턴시(첫 단어 출력 시간)에 해당한다.
  • 두 번째 수식은 전체 데이터(KV 캐시·컨텍스트·가중치) 크기를 메모리 밴드위스로 나눈 것으로, 토큰 출력 시간에 해당한다.
  • 실제 체감 지연에서 두 번째 항이 지배적이므로, 메모리 밴드위스 향상이 핵심 해결책이다.
  • 메모리 용량이 충분하다는 전제 하의 수식이며, 용량이 부족하면 원격에서 데이터를 가져오는 추가 시간이 더해진다.

48. 용량 부족 시 추가 지연과 메모리 수요의 기하급수적 전망 [59:18]

  • 메모리 용량이 부족하면 원격(PC 등)에서 데이터를 긁어 와야 하므로 수식에 추가 시간이 더해진다.
  • 현재까지의 논의는 용량 충분을 전제로 한 것이며, 실제 환경에서는 용량 한계가 추가 병목으로 작동한다.
  • 메모리 수요가 상상 이상으로 기하급수적으로 늘어나는 추세이며, HBM뿐 아니라 메모리 가격 구조 전반에도 영향을 미칠 것으로 예상된다.

49. HBM 비용 현실과 단기 대안의 부재 [1:00:00]

  • HBM 가격이 이미 너무 비싸져서 "HBM을 쓰지 말자"는 극단적 논의까지 등장하는 상황이다.
  • 메모리를 원격으로 연결해 사용하는 방식도 가능하나, 상용화에는 30~100년 단위의 연구가 필요할 것으로 추정된다.
  • 당장 AI 서비스가 돌아가야 하는 현실에서는 검증된 기술을 조립하는 방향이 합리적이다.
  • 현재 생산되는 DRAM 수준으로도 인공지능 서비스가 겨우 돌아가고 있어, 사용자가 늘어나면 즉시 병목이 발생한다.
  • 토큰 수 제한, 긴 문장 거부, 응답 속도 지연, 1시간 사용량 제한 등이 모두 메모리 부족에서 기인하는 현상이다.

50. GPU 간 연결과 광통신 도입의 배경 [1:01:26]

  • GPU 혼자서는 처리하지 못하기 때문에 GPU 간 데이터 연결이 필수적이다.
  • HBM·HBF 외에 원격 메모리에 접근하려면 엄청난 대역폭이 필요한데, 구리 기반 전송으로는 속도 한계에 부딪힌다.
  • 구리선은 데이터가 "버스 타고 오는" 속도인데 비해, 광통신은 "비행기 타고 오겠다"는 비유로 속도 차이를 설명한다.
  • 엔비디아 입장에서는 광통신이 자체적으로 컨트롤 가능한 솔루션이라 도입 유인이 크다.
  • 다만 옆에 메모리를 직접 붙이는 방식이 비용 면에서 압도적으로 유리하다는 게 교수님의 핵심 주장이다.

51. 광통신의 구조적 한계 — 전력·공간·복잡성 [1:02:02]

  • 전기를 광신호로 변환하는 과정 자체가 전력 소모를 수반하고, 수신 측에서 다시 광신호를 전기로 변환해야 한다.
  • 광섬유 케이블링이 복잡하고, 연결 구조가 3차원적으로 확장되어 공간 요구가 크다.
  • PCB 위에서 2차원 라우팅으로 해결되는 기존 방식과 달리, 광통신은 공간을 입체적으로 차지한다.
  • GPU·HBM 간 근거리 연결은 여전히 구리 기반으로 운영되고 있으며, 모듈 간 연결(인피니티밴드)에만 광통신이 적용된다.
  • 광통신은 할 수 없이 선택하는 "꼼수"에 가깝고, 본질적 해결책으로 보기 어렵다는 평가다.

52. 에이전틱 AI 출현과 메모리 수요 급증 [1:03:28]

  • 최근 6개월 사이 에이전틱 AI와 컨텍스트 엔지니어링이 등장하면서 메모리 수요 구조가 또다시 급변했다.
  • 메모리 확보량이 곧 AI 성능을 결정짓는 핵심 변수로 부상했다.
  • 다만 GPU 성능이 받쳐주지 않으면 메모리만 늘릴 수 없는 구조이며, 양쪽이 함께 수준을 높여야 한다는 상호 의존성이 존재한다.
  • GPU는 열 발생·냉각 요구 등 물리적 제약이 많아 개선 여지가 제한적이다.
  • 교수님은 미래 예측의 본질적 불확실성을 인정하며 겸손하게 주장을 전달한다.

53. 샌디스크 낸드플래시와 롱텀 메모리 전략 [1:04:33]

  • 샌디스크는 낸드플래시 기반의 대용량 저장을 제공하는 기업으로, "멀리 있는 창고에 왕창 쌓아두겠다"는 비유에 해당한다.
  • 엔비디아는 광통신으로 이 창고를 연결하려 하고, 교수님은 옆에 직접 붙이는 HBF 방식을 주장한다.
  • 교수님의 핵심 제안은 멀리 있는 메모리도 HBF처럼 쌓아서 용량을 확보해야 한다는 것이다.
  • 근접 메모리든 원격 메모리든 용량 한계에 도달한 상황에서 "쌓는 것"이 유일한 방향이다.
  • 샌디스크 주가는 교수님의 발언 이후 상승세를 보였으며, 롱텀 메모리 수요에 대한 시장의 공감대가 형성되고 있다.

54. 엔비디아의 메모리 공급망 확보 경쟁 [1:05:44]

  • 샌디스크가 웨스턴디지털에서 분리된 독립 기업으로, 엔비디아의 인수·지분 확보 대상이 될 수 있다.
  • 엔비디아가 마이크론이나 샌디스크 같은 메모리 기업의 지분을 확보해야 한다는 관점이 제기된다.
  • 작년 경영권 인수 시도 당시 한국인 투자자들이 대거 매수하면서 주가가 급등해 인수가 무산된 것으로 추정된다.
  • 주식 시장은 수많은 변수가 얽혀 있으나, 기술적 방향성 자체는 참고할 만한 정보라는 점을 교수님이 강조한다.
  • 세 가지 공식을 필터링해 붙여놓고 가끔 확인하는 것을 실천적 조언으로 제시한다.

55. 자율주행·피지컬 AI로 확장되는 메모리 수요와 토큰 경제 [1:06:51]

  • 일론 머스크 수준의 성격 급한 리더도 직접 반도체를 만들어야 할 정도로 메모리 공급 병목이 심각하다.
  • 자율주행 자동차는 이미지 판단 등 멀티모달 처리를 위해 막대한 메모리가 필요하며, 메모리 가격이 차량 가격을 결정할 수준으로 영향력이 커지고 있다.
  • 피지컬 AI가 본격화되면 메모리 수요가 또다시 폭발할 것으로 예상된다.
  • 미래에는 개인이 보유한 메모리 용량(테라바이트)이 사회적 계층을 구분하는 지표가 될 수 있다는 전망이 제기된다.
  • 학생들의 AI 토큰 사용이 숙비·식비처럼 기본 생활비가 될 수 있으며, 국가 차원에서 대학생까지 토큰을 보장해야 할 가능성도 거론된다.

🧾 결론

  • AI 산업의 경쟁 구도가 "누가 더 똑똑한 모델을 만드느냐"에서 "누가 더 많은 메모리를 더 빠르게 확보하느냐"로 근본적으로 전환되었다. 알고리즘 경쟁은 끝났고, 메모리 인프라 전쟁이 본격화되고 있다.

  • 컨텍스트 엔지니어링 시대의 KV 캐시 곱셈 공식은 기술적 완화(압축·공유·원격 연결)가 있더라도 구조적 압박을 근본적으로 해소하지 못한다. 사용자 수 × 1인당 요구량이라는 물리적 총량은 줄일 수 없다.

  • 현재 AI 서비스의 토큰 수 제한, 긴 문장 거부, 응답 속도 지연, 1시간 사용량 제한 등 체감되는 불편은 모두 메모리 부족에서 기인하며, 사용자가 늘어날수록 병목은 가속화된다.

  • 에이전틱 AI가 스마트 글래스·자율주행 등 피지컬 AI로 확장되면 실시간 동영상 스트림까지 토큰으로 처리되어 메모리 수요가 또다시 폭발적으로 증가한다.

  • 개인의 메모리 보유 용량(테라바이트)이 사회적 계층을 구분하는 지표가 될 수 있으며, AI 토큰 사용비가 숙비·식비처럼 기본 생활비로 자리잡을 가능성이 제기된다.

📈 투자·시사 포인트

  • 삼성전자·SK하이닉스·마이크론: HBM·HBF 수요가 단순 증가가 아니라 곱셈 구조에 의해 기하급수적으로 확대되며, 완공까지 3년 이상 소요되는 메모리 팹의 진입 장벽이 이들 기업의 해자를 더욱 깊게 만든다. 수율과 적층 기술 노하우가 핵심 경쟁력이다.

  • 샌디스크·웨스턴디지털: 롱텀 메모리(낸드플래시) 수요 폭증이 투자 테마로 부상하며, 엔비디아의 인수·지분 확보 대상으로 거론되는 점이 주가 상승 모멘텀으로 작용할 수 있다.

  • 브로드컴: 고속 전송 회로 IP를 여러 반도체 설계사에 판매하는 비즈니스 모델이 HBM 세대 전환(HBM4 라인 2배화, PAM 도입)에서 직접 수혜를 본다.

  • 엔비디아: GPU 자체 성능 향상보다 메모리 확보와 광통신 생태계 구축이 실질적 성장 동력이지만, 광통신은 전력 소모·공간·복잡성 한계가 있어 "꼼수"에 가까운 보완책이다. 메모리 기업과의 수직 계열화 압력이 커진다.

  • 일론 머스크의 테라(Tera): 파운더리·메모리·패키징을 아우르는 수직 계열화 시도는 메모리 공급 병목에 대한 극단적 대응이지만, 완공까지 3년 이상 소요되므로 단기에는 기존 메모리 기업의 협상력이 더욱 강화된다.

  • 지정학적 리스크 분산: 한국에서 고성능 메모리, 텍사스에서 저성능 메모리를 생산하는 식의 리스크 분산이 논의되며, 한국 기업에게는 기회이자 시장이 너무 커져 버린 위기가 공존하는 상황이다.

⚠️ 불확실하거나 확인이 필요한 부분

  • 샌디스크 경영권 인수 시도 당시 "한국인 투자자들이 대거 매수해 인수가 무산되었다"는 서술은 출처가 명확하지 않으며, 실제 주가 급등 원인과 인수 무산 사유에 대한 별도 교차 검증이 필요하다.
  • "컨텍스트 길이가 100만, 나아가 100만 배까지 확장될 것"이라는 전망은 김정호 교수의 추정이며, 업계 로드맵이나 학술적 근거로 뒷받침되는 구체적 수치인지 확인이 필요하다.
  • 일론 머스크의 "테라" 파운더리·메모리·패키징 회사 구상이 실제 발표인지, 아니면 업계 추측이나 인터뷰 발언 수준인지 확인이 필요하다.

✅ 액션 아이템

  • KV 캐시 메모리 공식(시퀀스 랭스 × 배치 × 프리시전 × 헤드 수 × 2 × 레이어 수 × 헤드 디멘전)을 별도 노트에 정리하고, 시장 상황 변화 시 변수 값을 업데이트하며 추적한다.
  • 삼성·SK하이닉스·마이크론의 HBM4 양산 일정과 낸드플래시 증설 계획을 분기별로 점검하여 메모리 공급 여력과 수요 격차를 모니터링한다.
  • 컨텍스트 엔지니어링 관련 주요 AI 서비스(제미나이, 클로드, GPT 등)의 컨텍스트 길이·파일 첨부 한도 변화를 정기적으로 비교 기록한다.
  • 엔비디아·브로드컴·AMD의 차세대 GPU 및 고속 인터커넥트(NVLink, CXL, 광통신) 로드맵을 추적하여 메모리 대역폭 기술 진전을 파악한다.

❓ 열린 질문

  • KV 캐시 압축·희소화·양자화 등 완화 기술이 상용 수준으로 발전할 경우, 곱셈 구조의 필연성 주장이 얼마나 수정되어야 하는가?
  • 개인 데이터 주권과 프라이버시 규제(GDPR 등)가 강화될 경우, 초개인화 에이전틱 AI의 데이터 수집·보관 모델은 어떤 방향으로 수렴할 것인가?
  • HBM 단가 상승이 지속되면, 원격 메모리 + 광통신 아키텍처와 근접 HBF 적층 아키텍처 중 어느 쪽이 비용-성능 균형에서 유리해지는가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.