YouTube안될공학 - IT 테크 신기술·2026년 6월 29일·0

새로운 AI 메모리 등장…퀄컴의 무서운 AI 서버 진격

Quick Summary

HBC와 퀄컴의 AI 서버 진격은 HBM을 대체한다기보다, 디코드 병목과 데이터 이동 비용을 줄이려는 새로운 시스템 설계 경쟁의 신호다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

새로운 AI 메모리 등장…퀄컴의 무서운 AI 서버 진격 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

새로운 AI 메모리 등장…퀄컴의 무서운 AI 서버 진격 내용을 설명하는 본문 이미지

💡 한 줄 결론

HBC와 퀄컴의 AI 서버 진격은 HBM을 대체한다기보다, 디코드 병목과 데이터 이동 비용을 줄이려는 새로운 시스템 설계 경쟁의 신호다.

📌 핵심 요점

  1. AI 반도체 경쟁은 GPU 연산 성능과 HBM 공급 경쟁을 넘어, 데이터 이동량 자체를 줄이고 메모리 월을 완화하는 구조 경쟁으로 이동하고 있다.
  2. 퀄컴의 드래곤플라이는 단일 AI 가속기 발표가 아니라, 가속기·서버 CPU·네트워크·메모리·소프트웨어를 묶은 데이터센터용 풀세트 전략이다.
  3. HBM은 데이터가 오가는 통로를 넓히는 방식이고, HBC는 메모리 가까이에서 일부 연산을 처리해 애초에 옮길 데이터 양을 줄이려는 접근이다.
  4. 퀄컴 HBC는 대용량 DRAM 곁에 연산을 붙이는 방향이고, Groq LPX는 빠른 SRAM을 활용하는 방향이라 디코드 병목을 푸는 방식이 서로 다르다.
  5. 삼성전자와 SK하이닉스에는 HBM 이후에도 PIM·PNM·3D 적층·첨단 패키징 역량을 바탕으로 공동 설계 파트너로 올라설 기회가 있지만, 실제 공급 여부와 성능 검증은 아직 확인이 필요하다.

🧩 배경과 문제 정의

  • AI 반도체 경쟁은 이제 GPU 성능이나 HBM 공급량 확대를 넘어, 데이터 이동 자체를 줄여 메모리 병목을 완화하는 구조 경쟁으로 옮겨가고 있다.
  • 퀄컴은 스마트폰용 스냅드래곤 기업이라는 기존 이미지를 넘어, 드래곤플라이 전략을 통해 데이터센터용 AI 서버 시장을 새로운 성장축으로 삼으려 한다.
  • AI 에이전트 시대에는 추론, 도구 호출, 결과 생성이 반복되기 때문에 데이터센터의 처리량과 전력 효율이 함께 중요해진다.
  • 특히 디코드 단계에서는 거대한 가중치와 KV 캐시를 반복적으로 읽어야 하므로, 연산기 성능보다 메모리 이동 비용이 병목으로 부각된다.
  • HBM은 데이터가 오가는 통로를 넓히는 접근이고, HBC는 메모리 가까이에서 연산해 이동해야 할 데이터 자체를 줄이는 접근으로 설명된다.
  • 검증 필요: 퀄컴 AI250의 실제 디코드 성능, 전력 효율, 유효 대역폭이 토큰 생성 성능으로 얼마나 이어지는지, 그리고 삼성전자·SK하이닉스가 실제로 HBC를 공급할지는 아직 확인이 필요한 지점이다.

🕒 시간순 섹션별 상세정리

1. HBM과 다른 HBC의 출발점, 퀄컴의 데이터센터 진입

  • HBM은 데이터가 지나갈 통로를 넓히는 방식인 반면, HBC는 처음부터 옮겨야 할 데이터량을 줄이는 방향으로 문제를 푼다 [00:19]
  • 퀄컴은 드래곤플라이라는 이름을 앞세워 데이터센터 AI 서버 시장 진입을 내세운다 [00:34]

2. 칩 단품 경쟁에서 서버 풀세트 경쟁으로 바뀐 시장

  • 퀄컴은 AI 가속기, 랙 단위 네트워크, 서버용 CPU, 메모리, 소프트웨어를 묶은 풀세트 전략을 제시한다 [02:00]
  • AI 서버 경쟁에서는 가속기 단품 성능보다 칩·네트워크·CPU를 함께 설계하는 역량이 더 중요해진다 [02:17]

3. 에이전트 AI 수요와 스마트폰 의존 탈피가 맞물린 진입 시점

  • 퀄컴의 데이터센터 진입은 AI 에이전트 확산이라는 기회와 스마트폰 매출 의존을 낮추려는 필요가 맞물린 결과로 드러난다 [03:23]
  • 에이전트 AI는 여러 단계의 추론과 도구 호출을 반복하기 때문에 데이터센터의 처리 부담을 키운다 [03:34]

4. 프리필과 디코드의 차이, 디코드 단계의 메모리 부담

  • 프리필 단계는 입력 프롬프트 안의 토큰 관계를 한꺼번에 훑어 모델의 맥락을 채우는 과정이다 [04:29]
  • 프리필은 큰 계산을 한 번에 몰아서 처리할 수 있어 GPU의 대규모 연산 능력을 활용하기 쉽다 [05:02]

5. 메모리 월과 HBM 의존의 구조적 배경

  • 디코드 단계는 토큰을 만들 때마다 가중치와 KV 캐시를 반복해서 읽어야 하므로, 계산보다 데이터 운반이 병목이 된다 [06:42]
  • 연산 성능은 빠르게 발전했지만 메모리 속도 개선은 상대적으로 느려, 오래된 메모리 월 문제가 AI 추론에서 다시 핵심 이슈가 된다 [06:59]

6. 낮은 배치 효율, 분리형 추론, HBC 구조의 시작

  • 빠른 응답이 필요한 낮은 배치 환경에서는 GPU 연산기를 충분히 채우지 못한 채 데이터 이동 비용만 커질 수 있다 [08:55]
  • 에이전트 흐름이 길어질수록 프리필과 디코드를 같은 칩에서 함께 처리하는 방식의 한계가 더 뚜렷해진다 [09:28]

7. HBC의 3D 적층 구조와 near memory computing

  • HBC는 메모리 다이 위에 연산 다이를 올리는 3D 적층 구조로, 저장과 계산을 한 패키지 안에서 가깝게 배치한다 [12:14]
  • 연산부가 메모리 바로 위에 놓이면서 데이터 이동 거리를 줄이고, 메모리 월 병목을 직접 겨냥한다 [12:27]

8. HBM은 통로 확장, HBC는 통행량 감소

  • 기존 구조는 DRAM에서 데이터를 꺼내 GPU로 보내고 다시 메모리로 되돌리는 왕복 과정에서 병목이 발생한다 [13:12]
  • HBM은 이 왕복 통로를 넓히는 방식이고, HBC는 메모리 근처에서 처리해 오가는 데이터량 자체를 줄이는 방식이다 [13:30]

9. AI250 수치와 유효 대역폭 해석

  • AI250에는 HBC 1세대가 적용되며, 768GB 메모리 용량과 초당 13TB급 유효 대역폭이 핵심 수치로 드러난다 [14:45]
  • 이전 AI200 대비 유효 대역폭이 크게 늘었다는 점이 HBC 도입 효과를 설명하는 근거로 드러난다 [15:04]

10. Groq LPX의 SRAM 중심 속도 전략

  • Groq의 LPU와 LPX는 AI 추론을 빠르게 처리하기 위한 전용 칩·시스템 전략으로 비교된다 [17:15]
  • Groq은 작지만 빠른 SRAM을 택하고, 퀄컴은 느리지만 큰 DRAM을 택한다는 차이가 핵심이다 [17:57]

11. Qualcomm의 DRAM 용량 전략과 성능 주장 주의점

  • 퀄컴은 큰 DRAM 가까이에 연산부를 붙여 대형 모델을 담고, 데이터 이동 감소로 DRAM의 속도 한계를 보완하려 한다 [20:45]
  • 같은 디코드 병목을 두고 Groq은 속도 중심, 퀄컴은 용량 중심 전략을 택한 것으로 압축된다 [21:00]

12. Samsung PIM·PNM의 선행 접근과 HBC와의 위치 차이

  • 메모리 가까이에 연산부를 붙여 데이터 이동을 줄이려는 발상은 퀄컴만의 출발점이 아니며, 삼성도 PIM 계열 연구를 진행해 왔다 [22:32]
  • PIM은 DRAM 칩 안에 연산부를 넣는 방식이고, HBC는 별도 연산 다이를 메모리 위에 얹는 방식으로 구분된다 [23:00]

13. HBC는 삼성 PIM과 방향은 같지만 구현은 다르다

  • PIM, PNM, 니어 메모리 컴퓨팅은 모두 연산을 데이터 가까이에 배치해 이동 비용을 줄이려는 같은 문제의식에서 출발한다 [24:00]
  • 다만 연산부를 메모리 안에 넣는지, 곁에 두는지, 위에 쌓는지에 따라 구현 방식은 달라진다 [24:15]

14. 퀄컴의 서버 진입은 HBC가 아니라 풀세트 전략이다

  • 드래곤플라이는 단일 칩이나 HBC만의 이슈가 아니라 가속기, 네트워크, CPU, 메모리, 소프트웨어를 함께 묶는 서버 전략으로 드러난다 [25:30]
  • HBC는 이 풀세트 전략 안에서 메모리 병목을 줄이기 위한 핵심 구성 요소 중 하나로 다뤄진다 [25:45]

15. C1000은 AI 서버의 관제탑 역할을 겨냥한다

  • C1000은 PCIe 7세대와 CXL 같은 연결 규격을 지원해 여러 장치를 넓고 빠른 통로로 묶는 역할을 목표로 한다 [26:56]
  • AI 서버에서는 가속기 성능뿐 아니라 장치들을 조율하고 연결하는 서버용 CPU의 역할도 중요해진다 [27:11]

16. 대형 고객 확보에도 양산 시점과 성능 추정치가 변수다

  • 메타, 마이크로소프트, 바이트댄스가 각각 CPU, HBC, 맞춤형 칩 영역에서 퀄컴과 연결된 사례로 나온다 [28:14]
  • 그러나 실제 양산 시점과 성능 추정치가 시장 성과로 이어질지는 아직 검증이 필요한 변수로 남아 있다 [28:29]

17. 개방형 연결망과 모듈러 인수는 엔비디아 생태계에 대한 도전이다

  • 대형 AI 모델은 수백 장의 가속기를 하나의 거대한 시스템처럼 묶어야 하므로 연결망 전략이 핵심이 된다 [29:28]
  • 퀄컴은 UA 링크와 이더넷 기반 연결망을 택하며 엔비디아 중심 생태계와 다른 방향의 시스템 구성을 시도한다 [29:43]

18. HBC는 한국 메모리 기업의 역할을 부품 공급에서 공동 설계로 바꾼다

  • 삼성전자와 SK하이닉스의 HBC 공급 계약은 아직 확정된 사실로 단정하기 어렵고, 협력사 명단과 실제 납품은 구분해서 봐야 한다 [31:37]
  • HBC 같은 구조에서는 메모리 기업이 단순 부품 공급을 넘어 시스템 공동 설계에 가까운 역할을 요구받을 수 있다 [31:52]

19. HBC의 기회와 아직 검증되지 않은 핵심 변수

  • HBM 중심이던 경쟁 무대가 HBC 같은 다양한 메모리 구조로 넓어지면 한국 메모리 기업의 기회도 확대될 수 있다 [36:01]
  • 동시에 제품 종류와 설계 난이도도 늘어나기 때문에 실제 성능과 공급 구조는 여전히 검증해야 할 영역으로 남는다 [36:16]

20. 확인해야 할 검증 지점과 AI 시스템 구조 변화

  • 2027년 AI250 샘플에서는 실제 모델의 디코드 속도, 전력 효율, 유효 대역폭이 토큰 생성 성능으로 이어지는지가 핵심 검증 지점이 된다 [37:28]
  • 결론적으로 AI 시스템 경쟁은 GPU 단품과 HBM 공급을 넘어, 메모리와 연산의 배치 방식, 서버 풀세트 설계, 생태계 연결 전략의 경쟁으로 확장되고 있다 [37:43]

🧾 결론

  • 이번 영상의 핵심은 “새 메모리 HBC가 곧바로 HBM을 대체한다”가 아니라, AI 추론 특히 디코드 단계에서 메모리 병목을 줄이기 위한 구조적 실험이 본격화되고 있다는 점이다.
  • 퀄컴은 스마트폰용 칩 기업 이미지를 넘어 데이터센터로 확장하려 하며, 드래곤플라이는 AI 가속기 하나보다 서버·랙·소프트웨어까지 묶은 시스템 경쟁에 초점을 둔다.
  • HBC의 강점은 물리적 대역폭 자체보다 데이터 이동을 줄여 유효 처리량과 전력 효율을 높이려는 데 있다. 따라서 HBM의 raw 대역폭과 HBC의 유효 대역폭을 단순 배수로 비교하는 것은 위험하다.
  • 검증 필요: 퀄컴이 제시한 성능·전력 효율 수치는 아직 동일 조건의 독립 벤치마크와 양산 제품 검증이 나온 단계가 아니며, 실제 모델에서의 토큰 생성 성능으로 이어지는지 확인해야 한다.
  • 검증 필요: 삼성전자나 SK하이닉스가 HBC 메모리를 실제로 공급하는지, 어떤 메모리와 적층 방식이 쓰이는지, 발열·수율·소프트웨어 작업 분배가 어느 수준인지도 아직 확정적으로 말하기 어렵다.

📈 투자·시사 포인트

  • 메모리 기업 관점에서는 HBM만 보는 시각에서 벗어나, PIM·PNM·HBC·첨단 패키징처럼 “연산을 데이터 가까이 붙이는” 구조 변화까지 함께 봐야 한다.
  • 삼성전자와 SK하이닉스에는 단순 메모리 납품을 넘어 고객의 AI 가속기 설계에 맞춰 적층 구조와 연산 배치를 함께 설계하는 고부가 역할이 열릴 수 있다.
  • 퀄컴의 데이터센터 진입은 엔비디아 독주를 당장 흔드는 사건이라기보다, CPU·가속기·메모리·네트워크·소프트웨어를 묶는 AI 서버 경쟁이 더 다극화될 수 있다는 신호로 해석하는 편이 적절하다.
  • 투자 판단에서는 2027년 AI 250 샘플, 2028년 AI 300과 C1000 일정, 실제 고객 도입 규모, 독립 성능 검증 결과를 핵심 체크포인트로 봐야 한다.
  • HBM 수요는 대규모 학습과 프리필 같은 영역에서 여전히 중요하지만, 에이전트 AI와 대규모 추론이 커질수록 디코드 전용 구조와 대용량·저전력 메모리 솔루션의 전략적 가치가 커질 수 있다.

⚠️ 불확실하거나 확인이 필요한 부분

  • AI250의 HBC 성능 수치는 “메모리 용량 768GB, 유효 대역폭 초당 13TB급”으로 설명되지만, 후반에는 “133TB급 수치”라는 표현도 나와 숫자 또는 단위 표기 확인이 필요하다.
  • HBC의 “유효 대역폭”은 실제 물리적 데이터 전송량이 아니라 메모리 근처에서 처리해 외부 이동을 줄인 효과를 환산한 값이므로, HBM의 raw 대역폭과 단순 배수 비교하면 오해가 생길 수 있다.
  • Qualcomm이 제시한 HBM 대비 와트당 대역폭 6배, SRAM 대비 와트당 용량 200배 수치는 동일 조건의 제3자 벤치마크가 아니라 경쟁사 사양 기반 추정치로 설명된다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • Qualcomm의 Dragonfly, AI250, AI300, C1000 관련 공식 발표 자료에서 HBC 용량·대역폭·전력 효율 수치를 원문 기준으로 재확인한다.
  • 영상 내 “13TB급”과 “133TB급” 표현이 같은 지표를 가리키는지, 단순 오기인지, 랙 단위 환산값인지 구분해 정리한다.
  • HBC의 유효 대역폭과 HBM의 raw 대역폭을 비교할 때 측정 기준이 다르다는 주의 문구를 별도로 남긴다.
  • 삼성전자·SK하이닉스의 HBC 공급 여부는 공식 계약, 고객사 발표, 양산 로드맵이 확인되기 전까지 “가능성” 또는 “기회” 수준으로 표현한다.

❓ 열린 질문

  • Qualcomm HBC의 “유효 대역폭”은 실제 LLM 디코드 토큰 생성 속도와 어느 정도 직접적으로 연결될까?
  • HBC는 대용량 디코드 병목을 해결하는 데 특화될 수 있지만, HBM·SRAM·PIM과 비교했을 때 어떤 워크로드에서 가장 확실한 우위를 보일까?
  • HBC에 들어가는 메모리는 DRAM 기반이라고 설명되지만, 실제 공급사와 구체적 메모리 구조는 언제 공개될까?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.