[진짜 수학,AI 4편] 구글은 틀렸습니다, 메모리 수만배 필요합니다 (KAIST 전자및전기공학부 김정호 교수)
Quick Summary
에이전틱 AI 시대로의 전환은 AI 경쟁의 핵심을 알고리즘에서 메모리로 완전히 이동시켰고, 컨텍스트 엔지니어링과 KV 캐시의 곱셈 구조가 수만~억배 단위의 메모리 수요 폭발을 구조적으로 필연화하고 있다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 4컷 인포그래픽
![[진짜 수학,AI 4편] 구글은 틀렸습니다, 메모리 수만배 필요합니다 (KAIST 전자및전기공학부 김정호 교수)의 핵심 내용을 4단계로 요약한 인포그래픽](/_next/image?url=%2Fpage-asset%2Fyoutube%2Fkv-cache-memory-bandwidth%2F227.4cut.png&w=3840&q=75)
🖼️ 추가 이미지
![[진짜 수학,AI 4편] 구글은 틀렸습니다, 메모리 수만배 필요합니다 (KAIST 전자및전기공학부 김정호 교수) 내용을 설명하는 본문 이미지](/_next/image?url=%2Fpage-asset%2Fyoutube%2Fkv-cache-memory-bandwidth%2F227.embed-01.png&w=3840&q=75)
💡 한 줄 결론
에이전틱 AI 시대로의 전환은 AI 경쟁의 핵심을 알고리즘에서 메모리로 완전히 이동시켰고, 컨텍스트 엔지니어링과 KV 캐시의 곱셈 구조가 수만~억배 단위의 메모리 수요 폭발을 구조적으로 필연화하고 있다.
📌 핵심 요점
-
에이전틱 AI의 초개인화는 개인 데이터 전체의 상시 보관을 전제로 하므로, AI 성능을 결정하는 것은 알고리즘이 아니라 메모리 용량과 대역폭이다. 구글·오픈AI·앤스로픽 간 알고리즘 격차는 사실상 소멸했고, 누가 더 많은 사용자 데이터를 빠르게 불러오느냐가 승패를 가른다.
-
프롬프트 엔지니어링을 대체하는 컨텍스트 엔지니어링은 사용자의 과거 대화, 문서, 동영상, AI 자율 수집 자료까지 모두 컨텍스트에 포함시켜 KV 캐시를 1,000~1,000,000배 확장한다. 추론 과정에서 실시간으로 학습하는 "오픈북 시험" 모델이 되면서 학습과 추론의 경계가 붕괴했다.
-
KV 캐시 메모리 공식(시퀀스 랭스 × 배치 × 프리시전 × 헤드 수 × 2 × 레이어 수 × 헤드 디멘전)은 곱하기 구조이므로 변수 축소가 사실상 불가능하며, 사용자당 64GB에서 수천만 동시접속까지 확장하면 사실상 억배 단위의 메모리가 필요하다.
-
AI 추론 지연은 KV 캐시 계산(레이턴시)보다 메모리 밴드위스에 의한 토큰 출력 시간이 지배적이며, 해결을 위해 HBM4의 라인 두 배 확장, 라인당 속도 향상, 다층 버스(PAM) 도입이 동시에 진행된다. 광통신은 원격 메모리 연결의 보조 수단일 뿐 근접 배치를 대체하지 못한다.
-
숏텀 메모리(HBM·HBF)와 롱텀 메모리(NAND 플래시) 모두 수요가 폭증하며, 삼성·SK하이닉스·마이크론은 물론 샌디스크·웨스턴디지털 등 전통 저장 기업까지 수혜 범위가 확대되고, 일론 머스크의 테라 파운더리 구상과 엔비디아의 메모리 공급망 확보 경쟁으로 이어지고 있다.
🧩 배경과 문제 정의
- AI가 판별형(알파고) → 생성형(글/그림 생성) → 에이전트형으로 진화하면서, 개인의 모든 데이터를 축적해 초개인화 서비스를 제공하려는 방향으로 전환되고 있다.
- 초개인화가 되려면 사용자의 대화 기록, 문서, 이메일, 위치 정보, 음성 등 개인 데이터 전체를 상시 보관해야 하므로 반도체 메모리 수요가 폭발적으로 증가한다.
- 구글, 오픈AI, 앤스로픽 등 경쟁사 간 알고리즘 격차는 거의 사라졌고, 승패를 가르는 핵심은 누가 더 많은 개인 데이터를 확보하고 빠르게 불러오느냐로 귀결된다.
- AI의 체감 성능은 결국 메모리의 대역폭과 용량에 의해 결정되며, 현재 메모리 용량 부족으로 과거 데이터를 지우는 구조가 한계로 지적된다.
🕒 시간순 섹션별 상세정리
1. 메모리 공장을 지어야 할 때 [00:00]
- 텍사스 사막 위에 현대차·삼양 라면 공장이 아니라 메모리 공장을 세워야 할 시점이라고 강조한다.
- 메모리 공장을 세워도 완공까지 3년 이상 소요되며, 수율 향상과 HBM·HBF 적층 기술 등 축적된 노하우가 필요해 쉽게 진입할 수 없다.
- 현재 메모리 수요 급증의 심각성을 극적인 비유로 전달한다.
2. 수학 공식 세 개로 AI·반도체 미래를 예측한다 [01:10]
- 김정호 교수가 AI 에이전트 시대의 반도체 메모리 수요 증가를 설명하는 데 중학생도 이해할 수 있는 수식 세 개가 가능하다고 밝힌다.
- 삼성·SK하이닉스 순익 200조 원 초과 등 실제 산업 수치와의 연관성을 수식으로 풀어보겠다고 설명한다.
- 이번 에피소드가 수학 시리즈 중 가장 어려울 수 있으나, 전 국민이 경제 활동·AI 활용·반도체 투자 관점에서 맛볼 수 있도록 구성했다.
3. 판별형 → 생성형 → 에이전트 AI로의 진화 [03:01]
- 알파고 시절의 인공지능은 판별형으로, 사진에서 강아지와 호랑이를 구분하는 수준이었다.
- 작년까지는 글쓰기·그림·음악·동영상 생성이 가능한 생성형 인공지능이 주류였다.
- 작년 말부터 에이전트형 AI 시대로 전환되고 있으며, 이것이 수학적으로 전혀 다른 요구를 만들어낸다고 설명한다.
4. 에이전틱 AI의 두 가지 핵심 동기 [03:42]
- 첫째, 개인 데이터를 최대한 수집해 개인 맞춤형 서비스를 제공하겠다는 목표가 있다.
- 둘째, AI와 소프트웨어가 생태계를 구축해 광고·수수료·사용료를 징수하는 수익 모델을 만든다.
- 작년까지의 생성형 AI는 그림·글을 보여주는 수준이었으나, 에이전틱 AI는 사용자가 돈을 쓸 수밖에 없는 상황을 설계한다.
5. 초개인화와 개인 데이터 전체 수집의 필연성 [04:43]
- 에이전틱 AI의 핵심은 인간을 대리하는 '초개인'으로, 나보다 나를 더 잘 아는 존재를 만들겠다는 목표다.
- 초개인화가 작동하려면 대화 기록, 프롬프트, AI 피드백, 문서, 이메일, 위치 정보, 음성 데이터 등 개인 정보 전체를 수집해야 한다.
- 건강·교육 등 분야별로 개인의 강점과 약점을 파악해 상황에 맞춘 맞춤형 보고서와 대응을 제공해야 한다.
- 이 모든 기록을 저장해야 하므로 메모리 수요가 필연적으로 증가한다.
6. 동영상 중심 데이터로 메모리 수요 가속 [05:56]
- 생성형 인공지능에 비해 에이전틱 AI는 파일 사이즈가 훨씬 크고, 특히 동영상 데이터가 많이 포함된다.
- 텍스트 위주의 생성보다 필요한 데이터 용량이 배로 높아지며, 이것이 메모리 수요 증가의 직접적 원인이 된다.
- 개인 정보를 즉석에서 불러와 바로 결과를 내려면 대용량 고속 메모리가 필수다.
7. 경쟁 우위의 이동: 알고리즘에서 데이터로 [07:04]
- 구글 제미나이, 앤스로픽 클로드, 오픈AI 등 경쟁사 간 알고리즘 격차는 거의 사라졌고, 모두 수학의 게임에서 비슷한 수준에 도달했다.
- 작년까지 성능 차이는 GPU 연산 속도에서 왔으나, 초개인화된 에이전틱 AI 시대에는 누가 더 많은 데이터를 보유하느냐가 승패를 결정한다.
- 데이터를 많이 가진 쪽이 사용자에게 더 잘 맞는 즉각적 대답을 제공할 수 있다.
8. AI 성능은 메모리에서 온다 [08:22]
- 병원 차트 비유를 통해, 자주 오는 환자의 기록은 책상 밑에 두지만 3년 만에 온 환자는 창고에서 찾아야 하는 것처럼, AI도 과거 데이터를 빠르게 불러올 수 있는 가까운 메모리가 필요하다고 설명한다.
- HBM·HBF 같은 고용량 고속 메모리가 필수적이며, AI의 체감 성능 만족도는 메모리 대역폭과 용량으로 결정된다는 게 교수의 핵심 주장이다.
- 현재 AI는 며칠 전까지만 기억하고 과거 데이터는 용량 부족으로 삭제하는 구조인데, 이 경우 엉뚱한 답변이 나올 수 있다.
- 유료 사용자에게는 항상 충분한 메모리를 할당하고, 무료 사용자는 기록을 빠르게 지우는 식의 차등 운영이 예상된다.
9. AI 선점 경쟁의 본질은 메모리 인프라 전쟁 [10:00]
- 새벽 배송 업체가 인프라를 먼저 깔아야 시장을 장악하듯, AI도 메모리를 먼저 확보해야 사용자를 묶어둘 수 있다.
- 사용자가 특정 AI에 습관적으로 들어가 얽히게 만드는 것이 현재의 선점 경쟁이며, 서비스 품질보다 메모리 기반 인프라가 승패를 가른다.
- 동네 가게 주인이 단골을 기억하듯, AI도 사용자를 기억하고 친절하게 대하려면 먼저 대용량 메모리를 깔아야 한다.
10. 숏텀 메모리와 롱텀 메모리의 이분법 [11:35]
- 숏텀 메모리는 실시간 행렬 연산, 빠른 반응에 쓰이며 HBM·HBF가 여기에 가깝다.
- 롱텀 메모리는 개인의 평생 데이터, CCTV 기록, 모든 과거 기록을 저장하는 용도로 NAND 플래시가 필요하다.
- 하드디스크·웨스턴디지털 같은 전통 저장 기업들의 주가 상승도 롱텀 메모리 수요 폭증과 연관된다.
- 젠슨 황이 삼성·하이닉스·마이크론·샌디스크와 관계를 맺는 이유도 숏텀·롱텀 메모리 모두가 AI 성능을 좌우하기 때문이다.
11. 일론 머스크의 테라와 메모리·패키징 전략 [12:52]
- 일론 머스크가 "테라"라는 이름으로 파운더리·메모리·패키징 회사를 짓겠다고 발표했다.
- 김정호 교수 연구실 이름도 "테라랩"인데, 테라바이트급 대용량 데이터를 다룬다는 의미에서 같은 어원을 공유한다.
- 머스크도 숏텀·롱텀 메모리가 AI 성능을 결정한다는 점을 인지한 것으로 보이며, GPU와 HBM을 묶는 패키징 공장까지 아우르는 수직 계열화를 시도한다.
12. 에이전틱 AI의 기술적 요구사항 정리 [13:37]
- 에이전틱 AI가 되려면 LLM 기반에 대용량 메모리, 그리고 외부 툴(엑셀, PPT, 유튜브, 이메일 등) 접근 능력이 필요하다.
- 사용자의 리퀘스트에 대해 thinking→acting→observing→feedback 루프를 돌며 최적의 결과를 제공하는 구조다.
- 소프트웨어뿐 아니라 메모리에 직접 접근하고 기존 도구들을 시퀀스로 연결하는 능력이 에이전틱 AI의 핵심 차별화 요소다.
13. 컨텍스트 엔지니어링의 등장 배경 [14:25]
- 프롬프트 엔지니어링은 텍스트로만 지시를 내리는 방식이어서 사용자 의도를 충분히 전달하지 못하는 한계가 있다.
- 과거 자신이 만든 PPT, 여행 계획서 등 실제 파일을 첨부하면 AI가 사용자의 스타일과 의도를 훨씬 정확하게 파악한다.
- 텍스트만으로 안 되니까 파일·문서를 첨부하고, 웹사이트를 지정해서 참조하게 하는 방식으로 진화했다.
14. 프롬프트에서 컨텍스트로의 패러다임 전환 [15:48]
- 기존 프롬프트 엔지니어링은 "말로만 하는 것"이었으나, 이제는 파일·문서를 첨부하고 검색 결과를 직접 지정하는 방식이 주류가 되었다.
- 제미나이 등 최근 AI 서비스에서 파일 첨부, 검색 지정, 클릭 기반 자료 선택이 가능해진 것이 이 흐름의 구체적 증거다.
- AI에게 "이렇게 해 달라"고 할 때 자료도 같이 주는 방식을 컨텍스트 엔지니어링이라 부르며, 프롬프트 엔지니어링보다 상위 개념으로 자리잡았다.
15. 학습과 추론의 경계 붕괴, 실시간 오픈북 모델 [17:48]
- 과거에는 사전 학습(pretraining) 단계에서 모든 학습이 끝났고, 추론(inference)은 이미 배운 것만 활용했다.
- 그런데 프리트레이닝 시점 이후의 최신 정보나 개인 정보는 모델에 없으므로, 추론 과정에서 사용자 자료를 주면서 실시간으로 학습시키는 방식으로 바뀌고 있다.
- 사전 학습과 추론이 분리되지 않고, 추론하면서 동시에 배우는 "오픈북 시험" 모델이 된 것이다.
16. 컨텍스트 엔지니어링이 메모리 수요를 다시 폭증시키는 이유 [18:45]
- 2024년 가을 이후 AI 실력의 기준이 프롬프트를 잘 다루는 것에서 컨텍스트를 잘 구성하는 것으로 이동했다.
- AI가 사용자 질문에 답할 때 보이지 않는 뒤에서 관련 파일·과거 기록을 자동으로 찾아 참조하며 답을 생성한다.
- 사용자가 첨부한 자료는 물론 AI가 스스로 과거 기록을 가져와 참조하므로, 대용량 메모리를 빠른 접근 속도(대역폭)와 함께 갖춰야 한다.
- 백과사전 한 권을 통째로 저장해 두고 질문이 들어오면 가나다순으로 즉시 찾아 답해야 하므로, 용량과 대역폭이 동시에 필요하다.
17. 데이터 양이 곧 AI 지능이다 [20:00]
- 데이터를 가능한 한 많이 쏟아부으면 그것이 곧 더 똑똑한 AI를 만든다는 주장이 등장한다.
- AI가 똑똑해지는 핵심 요인이 행렬 연산이 아니라 빠르고 대용량의 기억, 즉 메모리 용량에 있다는 인식으로 이동하고 있다.
- 컨텍스트를 결정하는 것은 결국 데이터의 양과 속도이며, 단순히 많은 자료를 제공하는 것이 최선의 성능으로 이어진다.
18. AI는 잊지 않는다: 영구 기억의 의미 [21:30]
- 인간은 과거 기록을 잊어버리기 때문에 용서와 화해가 가능하지만, AI는 모든 것을 갖고 있어 과거가 영구히 보존된다.
- AI도 인간처럼 과거의 쓸데없는 기억을 지울 수는 있지만, 그렇게 하면 인간과 비슷해져 경쟁력이 떨어진다.
- 개인 기록은 사람이 죽어도 지워지지 않을 가능성이 높으며, 이는 곧 개인의 역사책이 되지만 그만큼 메모리 비용이 누적된다.
19. 클라우드와 프라이버시: 개인 메모리의 딜레마 [22:40]
- 개인이 자신의 PC에 메모리를 쌓아두고 AI가 필요할 때만 접근해 일하게 하려는 접근(MCP, 멀티컨텍스트 프로토콜)은 기술적으로 가능하다.
- 그러나 현실적으로는 CD에서 스트리밍, 비디오 대여에서 넷플릭스로 옮겨간 것처럼 클라우드 기반 중앙 집중 방식으로 수렴할 가능성이 높다.
- 개인 데이터를 나만의 AI가 독점한다는 소망은 있지만, 구조적으로 보장되지 않으며 생태계 안으로 편입되는 흐름이 반복된다.
20. 자본 투자와 생태계 편입 전략 [24:30]
- 유료 서비스 가입 시 대용량 저장 공간을 무료로 제공하는 방식은 사용자를 생태계 안으로 끌어들이는 전형적인 유인책이다.
- 초창기에 막대한 자본 투자가 들어가며, 일부 기업은 100년 채권까지 발행하며 장기 인프라 확충에 나서고 있다.
- 편리함을 무료로 제공한 뒤 이후 비용을 부과하는 구조는 이메일, 사진 저장 등 여러 서비스에서 이미 검증된 패턴이다.
21. 컨텍스트 엔지니어링의 네 가지 요소 [25:07]
- 에이전틱 AI가 되려면 상황 인식, 안전한 개인화, 신뢰 등 복잡한 문제를 해결해야 하며, 그 기반이 컨텍스트 엔지니어링이다.
- 필수 요소는 프롬프트, 기억 장치, 소프트웨어 조작 능력, 외부 인터넷 데이터 접근 네 가지이며, 과거에는 프롬프트만으로 충분했으나 이제는 네 요소의 결합이 필요하다.
- 외부 정보 접근에는 이메일, 유튜브, 인터넷 검색 등이 포함되며, 이 중 기록을 모두 담아야 하는 메모리가 프롬프트보다 더 중요하다는 것이 강조된다.
22. 프롬프트를 넘어선 메모리의 우위 [26:03]
- 프롬프트는 문자열에 불과하지만, 컨텍스트 엔지니어링은 기억·외부 정보·도구를 결합해 환각을 방지할 수 있는 구조를 만든다.
- 정확한 소스가 있는 기억 시스템은 환각 방지에 직결되며, 이전 질문과 답변을 연속적으로 기억해 대화의 맥락을 유지한다.
- 핵심 주장은 "컨텍스트 엔지니어링에서 가장 중요한 동그라미는 프롬프트가 아니라 메모리다"라는 것이다.
23. KV 캐시: 어텐션의 행렬 표현 [26:45]
- 트랜스포머 모델의 어텐션은 단어 간 연관 관계를 점수화한 것이며, 이를 행렬로 표현한 것이 KV 캐시이다.
- 키(K)와 밸류(V)로 구성되며, 단어가 100개면 100×100 행렬이 되어 컨텍스트가 커질수록 행렬 크기가 제곱으로 증가한다.
- 컨텍스트 엔지니어링에서는 이 행렬이 100만 개 이상으로 확장되며, 이미지나 동영상이 포함되면 텍스트보다 훨씬 더 큰 행렬이 필요하다.
24. 컨텍스트 길이의 폭발적 확장과 저장소 한계 [28:05]
- 현재 유료 AI 서비스의 컨텍스트 길이는 약 100K 수준이어서 PPT 100장이나 긴 동영상 처리에 제약이 있다.
- 향후 100만 개, 나아가 100만 배까지 확장될 것으로 예상되며, 개인 평생 의료 기록 등 실생활 데이터까지 모두 수용해야 한다.
- AI의 능력은 결국 KV 캐시의 크기에 의해 결정되며, HBM만으로는 감당할 수 없어 GPU 옆에 테라비트급 저장소가 필요해질 것이라는 주장이 제기된다.
25. 컨텍스트 엔지니어링과 KV캐시의 폭발적 증가 [30:00]
- 사용자의 단순한 질문 배후에도 과거 대화, 맥락, 관련 파일들이 대량으로 첨부되어 결과가 생성된다.
- 컨텍스트 엔지니어링이 도입되면서 KV캐시 사이즈가 1,000배에서 1,000,000배까지 증가한다.
- 캐시가 커지면 그만큼의 메모리 용량이 필요하고, GPU가 빠르게 데이터를 읽어오기 위한 대역폭도 함께 늘어나야 한다.
- K와 V 행렬을 지속적으로 활용해 확률적으로 가장 높은 토큰을 출력하는 구조이므로 캐시 축소가 쉽지 않다.
26. 에이전틱 AI의 토큰 기하급수적 팽창 [31:00]
- 에이전틱 AI가 되면서 입력 토큰 수가 기하급수적으로 늘어나며, AI가 스스로 자료를 검색·수집하는 과정까지 모두 토큰으로 처리된다.
- 수집 대상에 동영상이 포함되고, 사용자가 직접 지정하지 않아도 개인 맞춤형 자료를 자동으로 긁어오는 과정도 토큰으로 계산된다.
- 과거 질문 결과도 모두 토큰으로 제공되어 동일 질문에 즉각 응답이 가능해지지만, 저장 부담은 계속 누적된다.
- 안경형 디바이스로 하루 종일 보고 듣는 데이터를 실시간으로 처리하려면 그 모든 스트림이 토큰으로 들어간다.
27. 스마트 글래스와 실시간 AI 에이전트 시나리오 [32:00]
- 중국에서도 스마트 글래스가 출시된다는 소식이 있으며, 사용자가 보는 모든 것을 데이터로 활용한다는 점이 핵심이다.
- 배터리 문제 등 현실적 한계는 있지만, 안경에서 데이터센터로 동영상을 인터넷을 통해 전송하는 방식도 가능하다.
- 안경을 쓰고 특정 인물을 인식하면 즉시 신원을 파악해 인사까지 안내하는 수준의 에이전트 기능이 현실적으로 가능하다.
- 이 모든 실시간 인식과 응답 과정에서 막대한 컨텍스트가 생성되어 KV캐시 부담으로 직결된다.
28. 라마 3.3 모델의 KV캐시 메모리 한계 [33:00]
- 라마 3.3 70B 모델의 컨텍스트 길이는 128K로, 아직 메가 토큰 수준에 도달하지 못했다.
- 이 조건에서도 KV캐시 메모리 용량이 약 89GB에 달하며, GPU 옆 HBM 4를 8개 장착해 총 256GB인데 한 모델 처리가 거의 전량을 차지한다.
- 토큰 사이즈가 100만, 즉 10배에서 100배로 늘어나면 KV캐시는 비례 내지 제곱에 비례해 테라바이트 단위로 확장된다.
- 메모리가 물리적으로 멀리 있으면 KV캐시를 읽어오는 데 지연이 발생해 사용자 체감 응답성이 크게 떨어진다.
29. 메모리 병목이 AI 경쟁력을 가른다 [34:00]
- HBM 외에도 SSD 등 대용량 저장이 필요해지며, 메모리 요구 조건 해결이 AI 사업 최대 현안으로 부상했다.
- 현재 알고리즘상 컨텍스트 길이가 길어지고 퍼스널라이즈가 진행되면 KV캐시가 커질 수밖에 없는 구조다.
- KV캐시를 생략하거나 줄이려는 연구는 나오고 있지만, 근본적인 해결책으로 보기 어렵다는 판단이다.
- AI 성능과 경쟁력을 가로막는 두 가지 핵심 요인은 메모리 용량 부족과 데이터를 빠르게 읽어오는 대역폭 문제다.
30. 돈과 시간의 트레이드오프 [35:00]
- 메모리 자원이 부족하면 AI 응답을 기다려야 하고, 개인 맞춤형 답변을 얻기 어려워지는 구조다.
- 새벽 배송, 프리미엄 배달, 당일 화물 등 비유에서 보듯 빠르고 정확한 서비스에는 추가 비용이 수반된다.
- 개인 비서가 있으면 즉시 처리되는 작업도 직접 하려면 시간이 걸리는 것과 동일한 원리다.
- 이 트레이드오프의 본질을 수식으로 설명하기 위해 첫 번째 공식을 도입한다.
31. KV캐시 메모리 공식의 변수 분석 [35:45]
- KV캐시 저장에 필요한 메모리는 시퀀스 랭스(컨텍스트 길이) × 배치(동시 사용자 수) × 프리시전(소수점 정밀도) × 헤드 수 × 2(K와 V) × 레이어 수 × 헤드 디멘전의 곱으로 계산된다.
- 시퀀스 랭스는 입력 크기(PDF, 동영상, AI 자율 수집 자료 포함)를 의미하며, 클수록 서비스 품질이 높아진다.
- 배치는 동시 사용자 수로 10만 명이 될 수 있으며, 덧셈이 아닌 곱하기로 작용하는 것이 핵심이다.
- 프리시전은 소수점 자릿수 선택으로, 싼 서비스는 낮은 정밀도, 정확한 결과는 높은 정밀도가 필요하며 이것도 곱하기 변수다.
- 헤드는 국어·영어·수학처럼 여러 과목을 동시에 다루는 구조이며, K와 V 각각의 행렬이 존재해 기본적으로 2배가 된다.
- 레이어는 딥러닝의 깊이, 즉 망을 몇 층까지 쌓느냐를 의미하며 깊을수록 똑똑해지지만 메모리도 선형 증가한다.
- 파란색으로 표시된 변수들은 모델 설계자의 선택사항이지만, 시퀀스 랭스와 배치는 사용자·시장 요구에 의해 결정된다.
32. 곱하기 구조의 불가피성과 물리적 한계 [38:30]
- 열배 × 열배 × 열배가 천배가 되는 곱하기 구조이므로, 구글·오픈AI·아마존이 성능을 늦출 이유가 없다면 변수 축소는 사실상 불가능하다.
- 압축이나 효율적 배치(자주 쓰는 데이터를 앞에, 공유 가능한 것은 병렬) 등 알고리즘적 완화 연구는 존재한다.
- 그러나 곱하기를 근본적으로 덧셈으로 바꾸지는 못하며, 논문 수준의 개선은 있어도 기본 구조는 변하지 않는다.
- 1억 국민이 매일 밥을 먹어야 하는 것처럼, 사용자 수 × 1인당 요구량이라는 물리적 총량은 줄일 수 없다.
- 밥 공장의 효율은 높일 수 있어도 1인당 밥상의 크기와 쌀알 개수, 즉 개인이 필요로 하는 메모리 총량은 줄일 수 없다.
33. 머니 게임 → 전기 게임 → 메모리 게임 [40:02]
- AI 사업의 수익 구조가 "배치만 해도 사용자가 늘어나니 최대 용량을 계속 늘려야 하는" 형태라 무한 투자가 강제된다.
- 100년치 채권 발행 등 머니 게임, 그 밑에 전기 게임, 그 밑에 메모리 게임이라는 3단 구조로 산업이 전개되고 있다.
- 이 곱셈 공식은 컨텍스트 엔지니어링 시대에 "가장 무서운 공식"이며 평생 기록해둘 필요가 있다.
- 리자 수가 한국에 오거나 삼성·하이닉스 직원이 1억 보너스를 받는 현상도 이 공식으로 설명 가능하다.
34. 천배·억배 메모리와 AI의 존속 가능성 [41:00]
- 현재 기준에서도 세 배 이상 필요한데, 수백 배에서 수천 배가 아니라 사실상 억배 단위의 메모리가 필요할 것으로 추정된다.
- 비용과 전기 요금을 누가 감당하느냐는 문제로, AI의 성공 여부가 의외로 메모리 비용 때문에 좌우될 수 있다.
- 인류가 "그만하자"고 결론내릴 수준의 비용 압박이 올 수 있다는 경고다.
35. 일론 머스크의 메모리 공장 구상과 현실적 장벽 [41:28]
- 머스크가 자체 메모리 공장을 짓겠다는 판단을 올해 초에 내린 것으로 보인다.
- 삼성·하이닉스에 "더 만들어 달라"는 수준이 아니라 인수나 자체 생산으로 가야 한다는 분석이다.
- 메모리 공장 완공 후 양산까지 3년 정도 소요되며, HBM·HBF는 수율 확보와 적층 기술이 필요해 쉽지 않다.
- 당분간 2~3년은 이 곱셈 공식이 유효할 것으로 판단한다.
36. HBM/HBF 배치 vs 원격 메모리와 광통신 [42:26]
- 성능 극대화를 위해서는 메모리를 GPU 바로 옆에 배치하는 HBM/HBF가 정석이지만, 이렇게 하면 한국 기업에 자금이 집중된다.
- 엔비디아는 원격에 대규모 팩토리를 구축하고 광통신(CXL)으로 연결하는 접근을 병행하고 있다.
- 랜드플래시(Land Flash) 수요가 급증하며, 멀리 떨어진 메모리를 빠르게 가져오기 위해 광통신 기술이 주목받는다.
- 원격이든 인접이든 메모리 자체의 곱셈 요구량은 변하지 않으며, 기술로 완화할 수는 있어도 물리적 한계는 회피 불가하다.
37. 곱셈 수식의 단순성과 구조적 필연성 [43:48]
- 중학생도 이해할 수 있는 단순한 곱셈이지만, 생각할수록 가슴이 울릴 정도로 중요한 핵심 공식이다.
- 완화 기술이 부담을 줄이더라도, 줄어든 여유분에 더 큰 부하가 다시 채워지는 구조적 압박이 존재한다.
- 트랜스포머 모델 가정, 컨텍스트 엔지니어링 기법, 에이전틱 AI 등장이라는 세 가지 조건이 이 수식을 필연적으로 만든다.
- 컴퓨터 구조(폰 노이만 구조) 자체가 메모리를 왕복하는 형태이므로 근본적 재설계가 없으면 곱셈 구조는 유지된다.
38. 일인당 64GB에서 수천만 동시접속까지 [45:55]
- 단순 계산으로 컨텍스트 처리 시 사용자 1명당 약 64GB 메모리가 산출된다.
- 100명이 동시 사용하면 6.4TB, 수천만 명이 동시에 사용하면 사실상 땅덩어리 전체가 메모리로 덮여야 하는 수준이다.
- GPU 공장이 운동장 하나라면, 메모리는 100개 운동장 규모가 될 것이라는 추정이다.
- 현재 삼성·하이닉스·마이크론의 생산 능력으로는 턱없이 부족하다는 판단이다.
39. 메모리 전략과 지정학적 리스크 분산 [47:02]
- 곱셈 수식의 함의를 업계 전체가 빠르게 인식할 것이며, 올여름쯤이면 각국 정상도 이 문제를 인지할 것으로 예상된다.
- 테라패브(TeraFab) 등 미국 내 자체 메모리 팹 구상은 머스크식 "할 수 있겠냐"→"스페이스X도 그랬다"의 연장선에 있다.
- 한국에서 고성능 메모리를, 텍사스에서 저성능 메모리를 만드는 식의 리스크 분산이 현실적 대안으로 논의된다.
- 한국 입장에서는 기회이자 동시에 위기인, 시장이 너무 커져 버린 상황이다.
40. 메모리 용량에서 대역폭·스루풋으로 [49:01]
- 128K 컨텍스트가 메가·기가 단위로 확장되면 메모리 용량뿐 아니라 대역폭과 스루풋도 같이 병목이 된다.
- 모델 크기가 핵심이던 시대에서 KV 캐시 사이즈와 컨텍스트 길이가 핵심으로 넘어간다.
- 메모리를 저장해두고 쓰더라도, 비워지면 다시 채워야 하므로 용량과 속도의 밸런스가 맞아야 한다.
- 대역폭(공식 2)과 스루풋(공식 3)이 메모리 용량 공식에 이어 추가로 고려해야 할 핵심 변수다.
41. KV 캐시와 레이턴시·스루풋의 구분 [50:01]
- 컨텍스트 길이가 길어지면 GPU 여러 대가 동시에 행렬 처리하여 KV 캐시를 생성한다.
- KV 캐시를 만드는 시간을 레이턴시라 부르며, 사용자가 GPT에 질문했을 때 첫 단어가 튀어나오는 시간에 해당한다.
- KV 캐시 생성 후 단어를 하나씩 쏟아내는 속도를 스루풋이라 하며, 이는 메모리 밴드위스가 충분할 경우 메모리 밴드위스가 결정한다.
- 전기 신호의 저항 한계로 구리 기반 통신은 약 100 Gbps 수준에 머무른다.
42. GPU-HBM 근접 배치와 광통신의 한계 [51:23]
- GPU와 HBM을 최대한 가까이 붙여 저항을 줄이는 것이 기본 설계 전략이다.
- 광통신은 멀리 보내는 데 유리하지만, 광-전 변환 시 열 소모가 발생하고 섬유 채널 수가 16개 정도로 제한되어 근접 통신에는 구리가 더 유리하다.
- HBM3에서 HBM4로 넘어가면서 데이터 라인이 1024개에서 2048개로 두 배 증가한다.
- 라인 수 증가, 라인당 속도(기가BPS) 향상, 다층 버스(PAM) 도입의 세 가지 요소가 조합되어 메모리 밴드위스를 결정한다.
43. 세대별 성능 두 배의 압력과 젠슨 황의 딜레마 [52:55]
- 새로운 GPU를 내낼 때마다 성능이 두 배로 좋아져야 소비자가 구매하는데, 실질적 성능 향상은 GPU가 아닌 메모리 용량·밴드위스 확대에 달려 있다.
- 컨텍스트 길이가 길어지면서 용량과 밴드위스 요구가 동시에 증가하여, 메모리 쪽에서 싸게 용량을 늘리면서도 밴드위스를 높여야 하는 모순적 요구가 발생한다.
- HBM4에서 라인 두 배 확보만으로도 첫 단어 이후 토큰 출력 속도가 체감 가능하게 빨라진다.
44. 라인당 속도 기술과 브로드컴의 IP 비즈니스 [54:00]
- 라인 수 확장 외에 라인당 전송 속도를 높이는 고급 회로 기술이 필요하며, 이는 구현 난이도가 더 높다.
- 엔비디아의 NV링크가 대표적인 고속 전송 회로 기술이며, 브로드컴도 동종 기술을 보유하고 있다.
- 브로드컴은 이 고속 회로 IP를 여러 반도체 설계사에 판매하는 비즈니스 모델로 경쟁력을 확보하고 있다.
45. AMD의 GPU 진입과 생태계 장벽 [54:39]
- AMD는 CPU와 GPU를 모두 생산하지만, 현재는 엔비디아 GPU 시장 침투에 더 큰 관심을 두고 있다.
- 소프트웨어 생태계가 엔비디아 CUDA 기반으로 구축되어 있어 AMD GPU로 전환하려면 소프트웨어 전면 교체가 필요하다.
- 엔비디아 제품이 고가이기 때문에 일부 사용자가 AMD GPU를 시도하는 추세가 나타나고 있다.
- CPU 수요 자체도 증가하겠지만 GPU 대비 증가 폭과 가격 모두 제한적일 것으로 판단된다.
46. 다층 버스(PAM)와 GPU 성능의 유일한 확보 수단 [55:25]
- 라인 확장과 속도 향상이 한계에 도달하면 HBM5·6 세대에서 다층 버스(PAM) 방식을 도입하게 된다.
- 다층 버스는 소프트웨어가 아닌 입출력 전자 회로 기술이다.
- AI 추론 시 "생각하는" 구간은 GPU가 담당하고, 정답이 한 번 나오기 시작하면 쏟아지는 출력은 메모리 밴드위스가 담당한다.
- GPU 자체 성능을 높이는 유일한 방법은 GPU 간 광통신 연결뿐이며, 이 경우 GPU 개수에 비례하여 성능이 확장된다.
47. 추론 시간의 두 가지 수식과 메모리 밴드위스의 지배적 역할 [57:44]
- 첫 번째 수식은 KV 캐시 계산량을 GPU 연산 능력으로 나눈 것으로, 레이턴시(첫 단어 출력 시간)에 해당한다.
- 두 번째 수식은 전체 데이터(KV 캐시·컨텍스트·가중치) 크기를 메모리 밴드위스로 나눈 것으로, 토큰 출력 시간에 해당한다.
- 실제 체감 지연에서 두 번째 항이 지배적이므로, 메모리 밴드위스 향상이 핵심 해결책이다.
- 메모리 용량이 충분하다는 전제 하의 수식이며, 용량이 부족하면 원격에서 데이터를 가져오는 추가 시간이 더해진다.
48. 용량 부족 시 추가 지연과 메모리 수요의 기하급수적 전망 [59:18]
- 메모리 용량이 부족하면 원격(PC 등)에서 데이터를 긁어 와야 하므로 수식에 추가 시간이 더해진다.
- 현재까지의 논의는 용량 충분을 전제로 한 것이며, 실제 환경에서는 용량 한계가 추가 병목으로 작동한다.
- 메모리 수요가 상상 이상으로 기하급수적으로 늘어나는 추세이며, HBM뿐 아니라 메모리 가격 구조 전반에도 영향을 미칠 것으로 예상된다.
49. HBM 비용 현실과 단기 대안의 부재 [1:00:00]
- HBM 가격이 이미 너무 비싸져서 "HBM을 쓰지 말자"는 극단적 논의까지 등장하는 상황이다.
- 메모리를 원격으로 연결해 사용하는 방식도 가능하나, 상용화에는 30~100년 단위의 연구가 필요할 것으로 추정된다.
- 당장 AI 서비스가 돌아가야 하는 현실에서는 검증된 기술을 조립하는 방향이 합리적이다.
- 현재 생산되는 DRAM 수준으로도 인공지능 서비스가 겨우 돌아가고 있어, 사용자가 늘어나면 즉시 병목이 발생한다.
- 토큰 수 제한, 긴 문장 거부, 응답 속도 지연, 1시간 사용량 제한 등이 모두 메모리 부족에서 기인하는 현상이다.
50. GPU 간 연결과 광통신 도입의 배경 [1:01:26]
- GPU 혼자서는 처리하지 못하기 때문에 GPU 간 데이터 연결이 필수적이다.
- HBM·HBF 외에 원격 메모리에 접근하려면 엄청난 대역폭이 필요한데, 구리 기반 전송으로는 속도 한계에 부딪힌다.
- 구리선은 데이터가 "버스 타고 오는" 속도인데 비해, 광통신은 "비행기 타고 오겠다"는 비유로 속도 차이를 설명한다.
- 엔비디아 입장에서는 광통신이 자체적으로 컨트롤 가능한 솔루션이라 도입 유인이 크다.
- 다만 옆에 메모리를 직접 붙이는 방식이 비용 면에서 압도적으로 유리하다는 게 교수님의 핵심 주장이다.
51. 광통신의 구조적 한계 — 전력·공간·복잡성 [1:02:02]
- 전기를 광신호로 변환하는 과정 자체가 전력 소모를 수반하고, 수신 측에서 다시 광신호를 전기로 변환해야 한다.
- 광섬유 케이블링이 복잡하고, 연결 구조가 3차원적으로 확장되어 공간 요구가 크다.
- PCB 위에서 2차원 라우팅으로 해결되는 기존 방식과 달리, 광통신은 공간을 입체적으로 차지한다.
- GPU·HBM 간 근거리 연결은 여전히 구리 기반으로 운영되고 있으며, 모듈 간 연결(인피니티밴드)에만 광통신이 적용된다.
- 광통신은 할 수 없이 선택하는 "꼼수"에 가깝고, 본질적 해결책으로 보기 어렵다는 평가다.
52. 에이전틱 AI 출현과 메모리 수요 급증 [1:03:28]
- 최근 6개월 사이 에이전틱 AI와 컨텍스트 엔지니어링이 등장하면서 메모리 수요 구조가 또다시 급변했다.
- 메모리 확보량이 곧 AI 성능을 결정짓는 핵심 변수로 부상했다.
- 다만 GPU 성능이 받쳐주지 않으면 메모리만 늘릴 수 없는 구조이며, 양쪽이 함께 수준을 높여야 한다는 상호 의존성이 존재한다.
- GPU는 열 발생·냉각 요구 등 물리적 제약이 많아 개선 여지가 제한적이다.
- 교수님은 미래 예측의 본질적 불확실성을 인정하며 겸손하게 주장을 전달한다.
53. 샌디스크 낸드플래시와 롱텀 메모리 전략 [1:04:33]
- 샌디스크는 낸드플래시 기반의 대용량 저장을 제공하는 기업으로, "멀리 있는 창고에 왕창 쌓아두겠다"는 비유에 해당한다.
- 엔비디아는 광통신으로 이 창고를 연결하려 하고, 교수님은 옆에 직접 붙이는 HBF 방식을 주장한다.
- 교수님의 핵심 제안은 멀리 있는 메모리도 HBF처럼 쌓아서 용량을 확보해야 한다는 것이다.
- 근접 메모리든 원격 메모리든 용량 한계에 도달한 상황에서 "쌓는 것"이 유일한 방향이다.
- 샌디스크 주가는 교수님의 발언 이후 상승세를 보였으며, 롱텀 메모리 수요에 대한 시장의 공감대가 형성되고 있다.
54. 엔비디아의 메모리 공급망 확보 경쟁 [1:05:44]
- 샌디스크가 웨스턴디지털에서 분리된 독립 기업으로, 엔비디아의 인수·지분 확보 대상이 될 수 있다.
- 엔비디아가 마이크론이나 샌디스크 같은 메모리 기업의 지분을 확보해야 한다는 관점이 제기된다.
- 작년 경영권 인수 시도 당시 한국인 투자자들이 대거 매수하면서 주가가 급등해 인수가 무산된 것으로 추정된다.
- 주식 시장은 수많은 변수가 얽혀 있으나, 기술적 방향성 자체는 참고할 만한 정보라는 점을 교수님이 강조한다.
- 세 가지 공식을 필터링해 붙여놓고 가끔 확인하는 것을 실천적 조언으로 제시한다.
55. 자율주행·피지컬 AI로 확장되는 메모리 수요와 토큰 경제 [1:06:51]
- 일론 머스크 수준의 성격 급한 리더도 직접 반도체를 만들어야 할 정도로 메모리 공급 병목이 심각하다.
- 자율주행 자동차는 이미지 판단 등 멀티모달 처리를 위해 막대한 메모리가 필요하며, 메모리 가격이 차량 가격을 결정할 수준으로 영향력이 커지고 있다.
- 피지컬 AI가 본격화되면 메모리 수요가 또다시 폭발할 것으로 예상된다.
- 미래에는 개인이 보유한 메모리 용량(테라바이트)이 사회적 계층을 구분하는 지표가 될 수 있다는 전망이 제기된다.
- 학생들의 AI 토큰 사용이 숙비·식비처럼 기본 생활비가 될 수 있으며, 국가 차원에서 대학생까지 토큰을 보장해야 할 가능성도 거론된다.
🧾 결론
-
AI 산업의 경쟁 구도가 "누가 더 똑똑한 모델을 만드느냐"에서 "누가 더 많은 메모리를 더 빠르게 확보하느냐"로 근본적으로 전환되었다. 알고리즘 경쟁은 끝났고, 메모리 인프라 전쟁이 본격화되고 있다.
-
컨텍스트 엔지니어링 시대의 KV 캐시 곱셈 공식은 기술적 완화(압축·공유·원격 연결)가 있더라도 구조적 압박을 근본적으로 해소하지 못한다. 사용자 수 × 1인당 요구량이라는 물리적 총량은 줄일 수 없다.
-
현재 AI 서비스의 토큰 수 제한, 긴 문장 거부, 응답 속도 지연, 1시간 사용량 제한 등 체감되는 불편은 모두 메모리 부족에서 기인하며, 사용자가 늘어날수록 병목은 가속화된다.
-
에이전틱 AI가 스마트 글래스·자율주행 등 피지컬 AI로 확장되면 실시간 동영상 스트림까지 토큰으로 처리되어 메모리 수요가 또다시 폭발적으로 증가한다.
-
개인의 메모리 보유 용량(테라바이트)이 사회적 계층을 구분하는 지표가 될 수 있으며, AI 토큰 사용비가 숙비·식비처럼 기본 생활비로 자리잡을 가능성이 제기된다.
📈 투자·시사 포인트
-
삼성전자·SK하이닉스·마이크론: HBM·HBF 수요가 단순 증가가 아니라 곱셈 구조에 의해 기하급수적으로 확대되며, 완공까지 3년 이상 소요되는 메모리 팹의 진입 장벽이 이들 기업의 해자를 더욱 깊게 만든다. 수율과 적층 기술 노하우가 핵심 경쟁력이다.
-
샌디스크·웨스턴디지털: 롱텀 메모리(낸드플래시) 수요 폭증이 투자 테마로 부상하며, 엔비디아의 인수·지분 확보 대상으로 거론되는 점이 주가 상승 모멘텀으로 작용할 수 있다.
-
브로드컴: 고속 전송 회로 IP를 여러 반도체 설계사에 판매하는 비즈니스 모델이 HBM 세대 전환(HBM4 라인 2배화, PAM 도입)에서 직접 수혜를 본다.
-
엔비디아: GPU 자체 성능 향상보다 메모리 확보와 광통신 생태계 구축이 실질적 성장 동력이지만, 광통신은 전력 소모·공간·복잡성 한계가 있어 "꼼수"에 가까운 보완책이다. 메모리 기업과의 수직 계열화 압력이 커진다.
-
일론 머스크의 테라(Tera): 파운더리·메모리·패키징을 아우르는 수직 계열화 시도는 메모리 공급 병목에 대한 극단적 대응이지만, 완공까지 3년 이상 소요되므로 단기에는 기존 메모리 기업의 협상력이 더욱 강화된다.
-
지정학적 리스크 분산: 한국에서 고성능 메모리, 텍사스에서 저성능 메모리를 생산하는 식의 리스크 분산이 논의되며, 한국 기업에게는 기회이자 시장이 너무 커져 버린 위기가 공존하는 상황이다.
⚠️ 불확실하거나 확인이 필요한 부분
- 샌디스크 경영권 인수 시도 당시 "한국인 투자자들이 대거 매수해 인수가 무산되었다"는 서술은 출처가 명확하지 않으며, 실제 주가 급등 원인과 인수 무산 사유에 대한 별도 교차 검증이 필요하다.
- "컨텍스트 길이가 100만, 나아가 100만 배까지 확장될 것"이라는 전망은 김정호 교수의 추정이며, 업계 로드맵이나 학술적 근거로 뒷받침되는 구체적 수치인지 확인이 필요하다.
- 일론 머스크의 "테라" 파운더리·메모리·패키징 회사 구상이 실제 발표인지, 아니면 업계 추측이나 인터뷰 발언 수준인지 확인이 필요하다.
✅ 액션 아이템
- KV 캐시 메모리 공식(시퀀스 랭스 × 배치 × 프리시전 × 헤드 수 × 2 × 레이어 수 × 헤드 디멘전)을 별도 노트에 정리하고, 시장 상황 변화 시 변수 값을 업데이트하며 추적한다.
- 삼성·SK하이닉스·마이크론의 HBM4 양산 일정과 낸드플래시 증설 계획을 분기별로 점검하여 메모리 공급 여력과 수요 격차를 모니터링한다.
- 컨텍스트 엔지니어링 관련 주요 AI 서비스(제미나이, 클로드, GPT 등)의 컨텍스트 길이·파일 첨부 한도 변화를 정기적으로 비교 기록한다.
- 엔비디아·브로드컴·AMD의 차세대 GPU 및 고속 인터커넥트(NVLink, CXL, 광통신) 로드맵을 추적하여 메모리 대역폭 기술 진전을 파악한다.
❓ 열린 질문
- KV 캐시 압축·희소화·양자화 등 완화 기술이 상용 수준으로 발전할 경우, 곱셈 구조의 필연성 주장이 얼마나 수정되어야 하는가?
- 개인 데이터 주권과 프라이버시 규제(GDPR 등)가 강화될 경우, 초개인화 에이전틱 AI의 데이터 수집·보관 모델은 어떤 방향으로 수렴할 것인가?
- HBM 단가 상승이 지속되면, 원격 메모리 + 광통신 아키텍처와 근접 HBF 적층 아키텍처 중 어느 쪽이 비용-성능 균형에서 유리해지는가?