3 New PCs, One Giant AI Model…This Shouldn''t Work
Quick Summary
3 New PCs와 One Giant AI Model 실험의 결론은 “여러 대를 묶으면 더 빠르다”가 아니라, 큰 모델을 담는 용량 확장은 가능하지만 속도는 메모리 대역폭과 네트워크·분할 방식에 막힌다는 것이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
3 New PCs와 One Giant AI Model 실험의 결론은 “여러 대를 묶으면 더 빠르다”가 아니라, 큰 모델을 담는 용량 확장은 가능하지만 속도는 메모리 대역폭과 네트워크·분할 방식에 막힌다는 것이다.
📌 핵심 요점
- 세 대의 Intel 기반 NUC는 단일 장비가 담기 어려운 70B급 모델을 나눠 실행하는 데 성공했지만, 클러스터링의 주된 가치는 속도 향상이 아니라 메모리 용량 확장에 있었다.
- LLM 추론에서는 프롬프트 처리와 토큰 생성의 병목이 달랐다. GPU는 프롬프트 처리 속도를 약 1,000 tokens/s에서 2,200 tokens/s로 끌어올렸지만, 토큰 생성은 CPU와 GPU 모두 약 46 tokens/s 수준에 머물렀다.
- 생성 속도의 핵심 병목은 연산 성능보다 메모리 대역폭이었다. GPU가 CPU와 같은 메모리를 공유하는 구조에서는 GPU 연산력이 높아도 토큰 생성 속도가 크게 개선되지 않았다.
- NPU는 저전력·저소음·저발열 측면에서 장점이 있었지만, 실제 속도와 소프트웨어 성숙도에서는 한계가 드러났다. OpenVINO 기반 NPU 실행은 가능했으나, 모델 호환성과 초기 구동, 성능 측면에서 아직 거친 부분이 있었다.
- 속도를 높이려면 모델을 분할하기보다 각 머신에 전체 모델을 복제하고 요청을 나눠 보내는 방식이 더 적합했다. 작은 모델 기준 세 대 구성은 처리량을 약 2.5배 높였지만, 이 방식은 모델이 단일 머신 RAM에 들어갈 때만 가능하다.
🧩 배경과 문제 정의
- 이 영상의 핵심 문제는 세 대의 미니 PC를 묶어, 각 장비 한 대로는 담을 수 없는 700억 파라미터급 AI 모델을 실제로 실행할 수 있는지 확인하는 것이다.
- 최신 미니 PC는 개발용 IDE, 로컬 AI 실행, 개인 데이터 처리까지 감당할 만큼 강해졌지만, 대형 언어 모델을 올리는 순간 메모리 용량과 메모리 대역폭 한계가 먼저 드러난다.
- 실험 대상 장비에는 CPU, GPU, NPU가 모두 들어가 있으므로, 병목이 순수 연산 성능인지, 메모리인지, 장치 간 통신인지, 또는 소프트웨어 지원 성숙도인지 구분해야 한다.
- 여러 대의 장비를 연결하면 직관적으로는 더 빨라질 것처럼 보이지만, 실제 LLM 추론에서는 네트워크 지연, 모델 분할 방식, 요청 분산 방식에 따라 “속도 향상”과 “더 큰 모델 수용”이 완전히 다른 문제가 된다.
- 따라서 이 실험은 미니 PC 클러스터가 대형 모델을 더 빠르게 만드는지, 아니면 단일 장비에 올라가지 않는 모델을 억지로라도 실행하게 해주는지 구분하는 데 초점이 있다.
🕒 시간순 섹션별 상세정리
1. 단일 장비로는 불가능한 대형 모델 실행 실험
- 영상은 세 대의 작은 머신이 함께 700억 파라미터급 AI 모델을 실행하는 장면에서 출발한다. 핵심은 각 장비가 모델 전체를 담을 만큼 크지 않기 때문에, 모델을 나누어 올리고 클러스터로 묶어야 한다는 점이다 [00:15]
- 실험에는 최신 Intel 실리콘, 새 GPU, 전용 AI 칩인 NPU가 들어간 미니 PC 세 대가 사용된다. 목표는 단일 미니 PC의 한계를 넘어서 대형 모델 실행이 가능한지 확인하는 것이다 [00:30]
- 여기서 중요한 질문은 “세 대를 묶으면 실제로 더 빨라지는가”가 아니라, 먼저 “단일 장비에 들어가지 않는 모델을 여러 장비에 나눠 담을 수 있는가”로 압축된다 [00:45]
2. 로컬 AI 환경에서 저장소와 NUC 하드웨어 조건
- 로컬 AI 환경은 단순히 노트북 한 대에서 모델을 돌리는 수준을 넘어, 서버, 데이터셋, 체크포인트, 대형 프로젝트 파일을 함께 관리하는 방향으로 커지고 있다 [01:06]
- 이런 환경에서는 원격 접근성, 중복성, 프라이버시 요구가 동시에 커진다. 영상에서는 Internxt가 로컬 셋업을 대체한다기보다 보조하는 사설 클라우드 저장소로 묶인다 [01:28]
- Internxt는 종단간 제로 지식 암호화, 포스트 양자 암호, WebDAV, Rclone, NAS 지원을 제공하는 서비스로 드러난다 [01:43]
- 이후 실험의 초점은 저장소가 아니라, CPU·GPU·NPU를 갖춘 Intel 기반 NUC 계열 장비가 로컬 AI 추론에서 어느 정도까지 버틸 수 있는지로 이동한다 [02:00]
3. GPU는 프롬프트 처리 속도를 높이지만 생성 속도는 메모리에 막힌다
- 영상은 Dell GB10, DGX Spark 계열, Mac Studio 클러스터처럼 RDMA를 활용하는 구성을 언급하며, 장비 간 지연을 낮추면 LLM 추론이나 이미지 생성에서 속도 향상을 기대할 수 있다고 보여준다 [04:05]
- LLM 추론은 크게 프롬프트 처리 단계와 토큰 생성 단계로 나뉜다. 코드 생성이나 디버깅처럼 긴 컨텍스트를 모델에 넣는 작업에서는 프롬프트 처리 속도가 특히 중요해진다 [04:45]
- GPU는 많은 입력을 한꺼번에 처리하는 프롬프트 처리 단계에서 장점이 있지만, 토큰을 하나씩 생성하는 단계에서는 메모리 대역폭과 모델 접근 패턴이 더 큰 제한으로 작용한다 [05:10]
- 따라서 GPU가 있다고 해서 모든 LLM 작업이 같은 비율로 빨라지는 것은 아니며, 실제 체감 속도는 프롬프트 길이와 생성 토큰 수, 모델 크기, 메모리 조건에 따라 달라진다 [05:45]
4. NPU와 OpenVINO는 동작하지만 소프트웨어 성숙도와 성능 한계가 드러난다
- Llama.cpp는 해당 장비의 NPU와 직접 통신하지 못해, Intel의 OpenVINO를 사용하는 방식으로 전환해야 했다 [06:33]
- OpenVINO를 사용하면 작은 모델은 NPU에서 정상적으로 동작했다. 다만 이 결과는 NPU가 모든 로컬 LLM 작업에 바로 적합하다는 뜻이라기보다, 특정 소프트웨어 경로에서는 실행이 가능하다는 의미에 가깝다 [06:48]
- OpenVINO는 CPU, GPU, NPU를 활용하고 적절한 실행 장치를 자동으로 고르는 방향의 Intel 소프트웨어 생태계로 드러난다 [06:55]
- Hugging Face에는 OpenVINO용으로 확장된 모델들이 따로 존재하며, 이 실험에서도 일반 모델을 그대로 쓰는 것보다 OpenVINO 경로에 맞춘 모델과 도구가 중요하게 작용한다 [07:10]
- 이 구간의 핵심은 하드웨어에 NPU가 들어 있어도, 실제 활용성은 프레임워크 지원, 모델 변환, 실행 백엔드 성숙도에 크게 좌우된다는 점이다 [07:40]
5. 전력 효율 비교에서 NPU는 저전력, GPU는 토큰당 효율이 앞선다
- NPU의 핵심 가치는 순수 속도보다 효율에 있다. 실제 생성 중 전력 측정에서 NPU는 17W, GPU는 24W, CPU는 거의 30W를 사용했다 [08:54]
- 전력만 보면 NPU가 가장 낮고, 소음과 발열 측면에서도 가장 유리한 장치로 나타난다 [09:12]
- 하지만 GPU는 NPU보다 약 두 배 빠르게 작업을 끝내므로, 토큰 하나를 생성하는 데 드는 총 에너지 관점에서는 GPU가 더 유리할 수 있다 [09:27]
- 이 비교는 “가장 적은 전력을 쓰는 장치”와 “작업을 가장 효율적으로 끝내는 장치”가 항상 같지는 않다는 점을 보여준다 [09:35]
6. 세 대 클러스터는 속도를 늦추지만 더 큰 모델을 담기 위한 선택지가 된다
- 한 대에서 가능한 최적화를 모두 거친 뒤, 세 대의 NUC를 연결해 하나의 모델을 나눠 실행하는 실험이 계속된다 [10:08]
- 결과적으로 더 많은 장비를 연결한다고 해서 곧바로 더 높은 토큰 생성 속도가 나오지는 않았다 [10:23]
- Qwen 3 35B 모델은 단일 장비에서 약 35 tokens/s였지만, 세 대에 분산하자 약 17 tokens/s로 줄어들었다 [10:28]
- 이 결과는 모델을 여러 장비에 나누는 방식이 통신 오버헤드와 동기화 비용을 만들며, 속도 향상보다는 메모리 확장을 위한 방법에 가깝다는 점을 보여준다 [10:55]
- 즉, 클러스터링은 “작은 모델을 더 빠르게” 만드는 만능 해결책이 아니라, “큰 모델을 어떻게든 올리기 위한” 선택지로 이해해야 한다 [11:30]
7. 큰 모델 분할은 실행 가능하지만 속도 병목을 해결하지 못한다
- 70B급 dense 모델은 약 75GB 규모라 64GB 메모리를 가진 단일 머신에는 물리적으로 올라가지 않는다 [12:17]
- 그러나 세 대를 묶으면 총 192GB 메모리 풀을 활용할 수 있으므로, 모델을 나누어 배치하는 방식으로 실행 자체는 가능해진다 [12:32]
- 세 대 중 어느 한 대도 단독으로는 해당 모델을 실행할 수 없지만, 분산 실행 자체는 성공했다 [12:34]
- 다만 속도는 초당 1.4토큰 수준에 머물렀다. 이는 실행 가능성과 실사용 가능한 속도가 별개의 문제라는 점을 분명히 보여준다 [12:49]
- 이 구간의 결론은 대형 모델 분할이 메모리 한계는 우회할 수 있지만, 네트워크와 분산 추론 구조에서 생기는 속도 병목까지 해결하지는 못한다는 것이다 [13:20]
8. 처리량 확대에는 모델 복제가 맞고, 실사용 가치는 용도에 따라 갈린다
- 속도를 얻으려면 하나의 모델을 여러 장비에 쪼개기보다, 각 머신에 전체 모델 사본을 올린 뒤 요청을 나눠 보내는 방식이 더 적합하다 [14:09]
- 다만 이 방식은 모델 전체가 단일 머신의 RAM에 들어갈 때만 가능하다. 즉, 모델 복제는 처리량 확장에는 좋지만, 단일 장비 메모리를 초과하는 거대 모델에는 적용하기 어렵다 [14:24]
- 작은 모델 기준으로 한 대는 부하 상황에서 초당 약 196토큰을 처리했고, 세 대는 거의 500토큰까지 올라가며 처리량이 약 2.5배 늘어났다 [14:26]
- 따라서 여러 사용자의 요청을 동시에 처리하거나 작은 모델을 병렬로 서비스하는 목적이라면, 세 대의 미니 PC를 묶는 구성이 실용적인 의미를 가질 수 있다 [14:41]
- 반대로 단일 사용자에게 하나의 거대한 모델을 빠르게 응답시키는 목적이라면, 모델 분할 클러스터는 속도 면에서 기대만큼 유리하지 않다 [15:05]
- 최종적으로 이 실험은 미니 PC 클러스터가 “불가능했던 대형 모델 실행”은 가능하게 만들 수 있지만, “대형 모델을 빠르게 실행”하는 해법은 아니라는 결론으로 압축된다 [15:35]
- 검증 필요: 제공된 section-detail에는 15분대 이후의 원문 타임라인이 충분히 포함되어 있지 않으므로, 영상의 마지막 마무리 멘트와 정확한 최종 타임스탬프는 원 transcript로 재확인해야 한다 [15:50]
🧾 결론
- 이 실험은 “미니 PC 클러스터로 대형 AI 모델을 돌릴 수 있는가”라는 질문에는 부분적으로 그렇다고 답한다. 70B급 dense 모델은 단일 64GB 장비에는 올라가지 않았지만, 세 대를 묶은 192GB 메모리 풀에서는 분산 실행이 가능했다.
- 다만 “더 많은 PC를 붙이면 더 빨라지는가”라는 질문에는 대체로 아니었다. Qwen 3 35B는 단일 장비에서 약 35 tokens/s였지만 세 대 분산 실행에서는 약 17 tokens/s로 떨어졌고, 70B 모델은 약 1.4 tokens/s 수준에 머물렀다.
- 병목은 단순한 케이블 대역폭만이 아니라 메모리 속도, 토큰마다 발생하는 장비 간 통신, 모델 분할 방식의 구조적 비용이었다. 2.5Gb 이더넷에서 20Gb Thunderbolt 구성으로 바꿔도 70B 생성 속도가 거의 변하지 않은 점이 이를 보여준다.
- CPU·GPU·NPU 비교에서는 GPU가 실사용 성능 면에서 가장 균형적이었다. NPU는 순간 전력은 낮았지만, GPU가 더 빨리 작업을 끝내 토큰당 총 에너지 효율에서는 더 유리한 결과를 보였다.
- 검증 필요: 영상에서는 RDMA 같은 기술이나 향후 소프트웨어 개선이 클러스터 추론 성능을 높일 가능성을 언급하지만, 이 구성에서 실제 개선 폭은 입증되지 않았다. 따라서 RDMA 지원 장비나 다른 네트워크·런타임 조합에서의 성능은 별도 검증이 필요하다.
📈 투자·시사 포인트
- 로컬 AI 하드웨어의 경쟁력은 단순 TOPS나 GPU 탑재 여부보다 메모리 용량, 메모리 대역폭, 런타임 지원 성숙도에 크게 좌우된다. 특히 LLM 생성 성능에서는 메모리 구조가 핵심 차별점이 될 가능성이 크다.
- Intel 기반 AI PC와 NUC류 장비는 개발·로컬 추론·개인 데이터 처리 장비로는 매력적이지만, 대형 모델 추론용 클러스터로는 아직 비용 대비 효율을 신중히 따져야 한다. 영상에서 언급된 가격대와 성능 결과를 보면 “작고 강한 PC 여러 대”가 곧바로 “효율적인 AI 서버”를 의미하지는 않는다.
- NPU는 저전력 추론과 온디바이스 AI의 방향성에서는 중요하지만, 현재 실험 기준으로는 소프트웨어 호환성, 모델 변환, 성능 최적화가 충분히 성숙해야 본격적인 가치가 커질 수 있다.
- 클러스터 전략은 목적에 따라 나뉜다. 단일 장비에 안 들어가는 큰 모델을 실행하려면 모델 분할이 필요하고, 여러 사용자나 요청을 처리하는 처리량 확대가 목적이라면 모델 복제와 로드 분산이 더 적합하다.
- 사무실·개인 개발 환경에서는 이런 미니 PC 클러스터가 AI 추론 전용보다 Proxmox, 가상 머신, 로컬 서비스, 소형 모델 서빙을 함께 돌리는 다목적 인프라로 더 현실적인 가치를 가질 수 있다.
⚠️ 불확실하거나 확인이 필요한 부분
- ASUS NUC 16 Pro의 세부 사양, 특히 CPU/GPU 모델명과 가격대는 영상 내 언급 기준이므로 실제 판매 구성·지역별 모델명·가격과 일치하는지 확인이 필요하다.
- Internxt의 제로 지식 암호화, 포스트 양자 암호, WebDAV·Rclone·NAS 지원은 sponsor 구간에서 제시된 내용이므로 독립적인 보안 검증이나 실제 호환성 확인이 필요하다.
- Llama 3.3 70B 모델이 “75GB 규모”로 언급된 부분은 사용한 양자화 방식, 포맷, 컨텍스트 길이, KV cache 설정에 따라 달라질 수 있어 정확한 실행 조건 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 로컬 LLM 장비를 평가할 때 프롬프트 처리 속도와 토큰 생성 속도를 분리해서 벤치마크한다.
- 단일 머신 RAM에 들어가는 모델은 먼저 한 대에서 CPU/GPU/Vulkan/OpenVINO 경로를 비교해 최적 실행 방식을 찾는다.
- 단일 장비에 들어가지 않는 70B급 모델은 “속도 향상”이 아니라 “용량 확보” 목적의 모델 분할로 판단한다.
- 여러 사용자의 요청을 처리하려는 경우에는 모델 분할보다 각 머신에 모델을 복제하고 요청을 분산하는 구조를 우선 검토한다.
❓ 열린 질문
- 이 클러스터의 주된 목적은 더 큰 모델을 한 번이라도 실행하는 것인가, 아니면 사용자 체감 속도와 처리량을 높이는 것인가?
- 실제 개발 워크로드에서는 긴 프롬프트 처리 속도와 토큰 생성 속도 중 어느 쪽이 더 큰 병목으로 작동하는가?
- RDMA 또는 더 성숙한 분산 추론 소프트웨어가 적용되면 이 NUC 클러스터에서도 모델 분할 추론 속도가 의미 있게 개선될 수 있는가?