Your OS Changes Everything for Local AI
Quick Summary
Local AI 성능은 OS 선택만으로 끝나지 않으며, Windows·WSL·Linux 차이보다 메모리 채널 구성과 GPU 활용 경로가 실제 체감 성능을 크게 좌우한다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Local AI 성능은 OS 선택만으로 끝나지 않으며, Windows·WSL·Linux 차이보다 메모리 채널 구성과 GPU 활용 경로가 실제 체감 성능을 크게 좌우한다.
📌 핵심 요점
- 같은 Ryzen AI 9 HX 470 미니 PC라도 Windows, WSL, bare-metal Linux에서 로컬 LLM 성능과 GPU 활용 방식이 크게 달라진다.
- Windows의 Ollama 기본 실행은 AMD iGPU를 제대로 쓰지 못하고 CPU fallback에 머무르며, llama.cpp Vulkan을 직접 쓰는 편이 더 낫다.
- WSL은 기본 Ubuntu 상태에서는 AMD iGPU가 보이지 않지만, Mesa Dozen 관련 드라이버와 설정을 추가하면 iGPU를 사용할 수 있다.
- Bare-metal Linux는 긴 prompt prefill에서 Windows보다 크게 앞서며, RAG처럼 긴 문맥을 처리하는 로컬 AI 작업에 더 유리한 결과를 보인다.
- 최종 병목은 OS가 아니라 단일 채널 메모리였고, dual-channel 구성 후 decode 성능이 대체로 두 배 가까이 개선됐다.
🧩 배경과 문제 정의
- 이 영상은 AMD Ryzen AI 9 HX 470 기반 GEEKOM A9 Max 미니 PC에서 Windows, WSL, bare-metal Linux가 로컬 AI 성능을 얼마나 다르게 만드는지를 비교하는 데 초점을 둔다.
- 같은 하드웨어, 같은 모델, 같은 프롬프트를 기준으로 운영체제와 백엔드 차이를 비교해야 CPU fallback, AMD iGPU 활용, NPU 활용 가능성의 실제 차이를 볼 수 있다.
- 핵심 문제는 단순히 “어느 OS가 빠른가”가 아니라, 같은 Strix Point APU에서도 Ollama, llama.cpp, Vulkan, ROCm, WSL 드라이버 경로에 따라 GPU가 제대로 쓰이거나 CPU에 머무를 수 있다는 점이다.
- 로컬 LLM에서는 짧은 채팅 응답의 decode 속도뿐 아니라 긴 프롬프트를 처리하는 prefill 성능이 중요하다. 이는 RAG, 에이전트, 코딩 어시스턴트처럼 실제 작업에서 긴 컨텍스트를 넣는 사용 사례와 직접 연결된다.
- 일부 결과가 칩의 기대 성능보다 낮게 나타나기 때문에, 운영체제 선택만으로 결론을 내리기보다 드라이버, 백엔드, 메모리 구성, 소프트웨어 지원 상태 같은 병목 가능성을 함께 봐야 한다.
- 검증 필요: 영상에서 언급된 “기대 성능 대비 낮은 결과”의 정확한 원인은 transcript만으로 단정할 수 없으며, 추가 벤치마크와 드라이버·런타임 설정 확인이 필요하다.
🕒 시간순 섹션별 상세정리
1. Ryzen AI 미니 PC에서 OS별 로컬 AI 성능 차이가 출발점이다
- GEEKOM A9 Max는 이전 모델과 비슷한 이름을 쓰지만 AMD Ryzen AI 9 HX 470, 12개 Zen 5 코어, Radeon 890M iGPU, 50 TOPS NPU를 탑재한 Strix Point APU 기반 장비로 묶인다 [00:04]
- 비교 대상은 Windows 기본 실행, Windows 안의 WSL, bare-metal Linux이며, 같은 칩에서 어떤 운영체제가 로컬 AI 성능을 가장 잘 끌어내는지가 영상의 출발점이다 [00:19]
2. 장비 사양과 비교 기준은 이전 테스트와 맞춰진다
- 테스트 장비는 HX 470 Strix Point, DDR5 5600 메모리 32GB, 2TB SSD 구성을 갖췄고, USB4, HDMI 2.1, 2.5GbE, USB-A, 오디오 잭, SD 카드 리더 등 다양한 포트를 제공한다 [02:10]
- 작은 미니 PC에서 SD 카드 리더와 여러 입출력 포트를 함께 제공하는 구성이 비교적 드물다는 점도 장비 특징으로 나온다 [02:35]
3. Windows에서는 Ollama 기본 경로보다 llama.cpp Vulkan 경로가 낫다
- Windows에서 Ollama를 기본 경로로 실행하면 CPU 사용률이 100%에 가깝게 올라가고 AMD GPU는 거의 활용되지 않아, 로컬 LLM 추론이 사실상 CPU fallback 상태에 머문다 [02:58]
- Vulkan 설정을 켜더라도 Ollama가 조용히 CPU 경로로 되돌아가는 문제가 있어, Windows에서 AMD iGPU를 직접 쓰려면 llama.cpp와 Vulkan 백엔드를 직접 사용하는 방식이 필요하다는 흐름으로 계속된다 [03:09]
4. WSL은 Mesa Dozen 드라이버를 추가해야 AMD iGPU를 제대로 쓴다
- WSL Ubuntu에서도 Ollama는 같은 모델을 CPU에서 실행하며, Linux 도구 체인의 편의성은 얻을 수 있지만 Ollama 기준으로는 기본 상태에서 뚜렷한 성능 이점이 나타나지 않는다 [05:04]
- Vulkan info summary에서는 소프트웨어 rasterizer만 보이고 AMD iGPU가 사실상 잡히지 않아, 기본 Ubuntu 설치 상태만으로는 WSL에서 iGPU 가속이 막힌다는 점이 드러난다 [05:38]
5. Bare-metal Linux는 긴 prefill에서 크게 앞서지만 decode 병목은 그대로 남는다
- Bare-metal Linux에서는 Ollama가 14B 모델을 실행하는 동안 GPU를 99%까지 사용하며, Windows나 WSL 기본 경로와 달리 AMD iGPU 활용이 바로 작동하는 모습을 보인다 [07:23]
- Linux에서 Ollama, llama.cpp Vulkan radv, llama.cpp ROCm의 decode 성능은 몇 퍼센트 차이 안에 모여 있어, 단순 backend 선택보다 다른 병목이 더 중요할 수 있다는 해석으로 계속된다 [07:44]
6. 운영체제별 성능 차이와 WSL의 비용
- decode 테스트에서는 Windows와 Linux가 거의 비슷한 수준이고 WSL은 약간 낮게 나타나지만, 이는 단일 데이터 포인트이므로 전체 성능을 단정하기에는 한계가 있다 [12:04]
- WSL은 Linux와 Windows 환경을 동시에 쓸 수 있게 해 작업 흐름의 유연성을 높이지만, 그만큼 약간의 성능 비용을 감수해야 하는 선택지로 압축된다 [12:19]
7. AMD 미니 PC 구매 기준과 A9 Max 세대 선택
- AMD 미니 PC가 single channel 또는 1X SODIMM 구성이라면 matched pair 메모리 교체 비용을 별도로 고려해야 하며, GEEKOM A9 Max는 메모리 교체 뒤에 AMD 사양표에 가까운 성능 구성이 된다는 맥락으로 드러난다 [12:40]
- A9 Max는 370 칩 기반 이전 모델과 470 칩 기반 신형 모델이 함께 판매될 수 있고, 물리적 형태와 이름이 거의 같기 때문에 구매 전 실제 탑재 칩을 반드시 확인해야 한다는 결론으로 마무리된다 [13:22]
🧾 결론
- 로컬 AI 성능을 비교할 때는 “어떤 OS인가”뿐 아니라 Ollama, llama.cpp Vulkan, ROCm, 드라이버 구성처럼 실제 backend 경로를 함께 봐야 한다.
- Windows에서는 Ollama 기본 경로를 그대로 쓰면 AMD iGPU 활용이 제한될 수 있으므로, 영상 기준으로는 llama.cpp Vulkan 같은 직접 GPU 활용 경로가 더 적합하다.
- WSL은 Linux 도구 체인의 편의성을 주지만, 설정 없이는 GPU 가속이 막힐 수 있고 설정 후에도 native 환경 대비 성능 비용이 남는다.
- 긴 prompt prefill이 중요한 작업에서는 bare-metal Linux와 radv 경로가 가장 강한 결과를 보였지만, decode에서는 메모리 bandwidth가 더 큰 병목으로 드러났다.
- Ryzen AI 미니 PC를 구매하거나 세팅할 때는 칩 이름만 보지 말고, 메모리가 single-channel인지 dual-channel인지 반드시 확인해야 한다.
📈 투자·시사 포인트
- AMD Ryzen AI 계열 미니 PC의 AI 성능은 CPU·GPU·NPU 스펙표만으로 판단하기 어렵고, 메모리 채널 구성과 드라이버 성숙도가 실제 성능을 좌우한다.
- 로컬 AI 장비를 구매할 때 single channel 또는 1X SODIMM 구성이라면, matched pair 메모리 업그레이드 비용을 총소유비용에 포함해야 한다.
- Linux 기반 로컬 AI 환경은 긴 context 처리에서 강점을 보일 수 있어, RAG나 대용량 문맥 입력을 자주 쓰는 사용자에게 더 매력적인 선택지가 될 수 있다.
- WSL은 개발·운영 편의성과 성능 사이의 절충안으로 볼 수 있으며, 최고 성능보다 Windows와 Linux 환경을 함께 쓰는 유연성이 중요한 경우에 적합하다.
- 검증 필요: A9 Max처럼 같은 제품명 아래 370 칩 기반 모델과 470 칩 기반 모델이 함께 판매될 수 있으므로, 구매 전 실제 탑재 칩과 메모리 구성을 판매 페이지 또는 실물 사양으로 확인해야 한다.
⚠️ 불확실하거나 확인이 필요한 부분
- Windows에서 Ollama가 AMD iGPU를 거의 쓰지 못하고 CPU fallback에 머문 결과는 영상의 테스트 환경 기준이므로, Ollama 버전, AMD 드라이버, Vulkan 설정, 모델 형식에 따라 재현 여부를 별도로 확인해야 한다.
- WSL에서 Mesa Dozen 드라이버와 dznICD.json 추가가 필요하다는 내용은 영상의 Ubuntu/WSL 구성 기준이며, 현재 배포판 패키지 상태나 repository 구성에 따라 달라질 수 있다.
- 단일 채널 메모리가 decode 병목의 핵심 원인이라는 설명은 dual-channel 교체 전후 결과와 잘 맞지만, BIOS 전력 설정, 메모리 타이밍, 냉각 상태, 드라이버 버전 같은 변수까지 완전히 분리한 결과인지는 추가 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- AMD 미니 PC 구매 전 CPU/APU가 Ryzen AI 9 HX 370인지 HX 470인지, 제품명이 아니라 실제 칩 세대를 기준으로 확인한다.
- 로컬 AI 용도로 구매할 경우 1개 SODIMM인지 2개 SODIMM인지 확인하고, single-channel이면 matched pair 메모리 교체 비용을 예산에 포함한다.
- Windows에서 Ollama만 실행해 성능을 판단하지 말고, CPU/GPU utilization을 함께 확인해 실제 iGPU 가속이 걸리는지 점검한다.
- Windows에서 AMD iGPU를 쓰려면 llama.cpp Vulkan 경로를 별도로 테스트하고, Ollama 기본 경로와 tokens/sec 및 GPU 사용률을 비교한다.
❓ 열린 질문
- WSL에서 Mesa Dozen 구성을 최적화했을 때 Windows native 대비 손실 폭이 영상의 결과보다 더 줄어들 수 있는가?
- AMD lemonade server의 NPU prefill + GPU decode hybrid 방식은 긴 prefill 중심 워크로드에서 Linux radv 대비 어느 정도 경쟁력이 있는가?
- 같은 Ryzen AI 9 HX 470 장비라도 제조사별 전력 제한, 냉각, 기본 메모리 구성 차이가 로컬 LLM 성능에 얼마나 큰 영향을 주는가?