NVIDIA brings agents to life with DGX Spark and Reachy Mini
Quick Summary
NVIDIA는 CES 2026에서 DGX Spark와 Reachy Mini를 활용해 오픈 모델, 에이전트 프레임워크, 음성·비전·로봇 제어를 결합한 개인형 물리 에이전트 구현 과정을 소개했다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
NVIDIA는 CES 2026에서 DGX Spark와 Reachy Mini를 활용해 오픈 모델, 에이전트 프레임워크, 음성·비전·로봇 제어를 결합한 개인형 물리 에이전트 구현 과정을 소개했다.
📌 핵심 요약
- 이 글은 NVIDIA가 CES 2026에서 공개한 오픈 모델 생태계와 DGX Spark, Reachy Mini를 결합해 책상 위에서 대화하고 협업할 수 있는 개인형 AI 로봇 에이전트를 만드는 방법을 안내한다.
- 데모는 NVIDIA Nemotron 계열의 추론 모델과 비전 모델, ElevenLabs의 텍스트 음성 변환 모델, Reachy Mini 또는 시뮬레이션, Python 및 uv 환경을 주요 구성 요소로 사용한다.
- 핵심 설계는 하나의 모델에 모든 일을 맡기지 않고, 텍스트 대화·시각 이해·도구 호출·행동 요청을 목적에 따라 라우팅하는 구조다.
- NeMo Agent Toolkit은 모델, 라우터, ReAct 기반 도구 호출 에이전트, 워크플로를 연결하며, Pipecat은 실시간 음성·비전 상호작용과 로봇 동작 조율을 담당한다.
- 최종적으로 사용자는 세 개의 터미널에서 Reachy 데몬, 봇 서비스, NeMo Agent Toolkit 서비스를 실행하고, Pipecat Playground와 Reachy 시뮬레이터 또는 실제 하드웨어를 통해 에이전트와 상호작용할 수 있다.
🧩 주요 포인트
- 이 글은 NVIDIA가 CES 2026에서 공개한 오픈 모델 생태계와 DGX Spark, Reachy Mini를 결합해 책상 위에서 대화하고 협업할 수 있는 개인형 AI 로봇 에이전트를 만드는 방법을 안내한다.
- 데모는 NVIDIA Nemotron 계열의 추론 모델과 비전 모델, ElevenLabs의 텍스트 음성 변환 모델, Reachy Mini 또는 시뮬레이션, Python 및 uv 환경을 주요 구성 요소로 사용한다.
- 핵심 설계는 하나의 모델에 모든 일을 맡기지 않고, 텍스트 대화·시각 이해·도구 호출·행동 요청을 목적에 따라 라우팅하는 구조다.
- NeMo Agent Toolkit은 모델, 라우터, ReAct 기반 도구 호출 에이전트, 워크플로를 연결하며, Pipecat은 실시간 음성·비전 상호작용과 로봇 동작 조율을 담당한다.
- 최종적으로 사용자는 세 개의 터미널에서 Reachy 데몬, 봇 서비스, NeMo Agent Toolkit 서비스를 실행하고, Pipecat Playground와 Reachy 시뮬레이터 또는 실제 하드웨어를 통해 에이전트와 상호작용할 수 있다.
🧠 상세 정리
1. CES 2026에서 제시된 물리 에이전트의 목표
글은 NVIDIA가 CES 2026에서 온라인과 현실 세계에서 동작하는 에이전트의 미래를 가능하게 할 여러 오픈 모델을 공개했다는 배경에서 시작한다. NVIDIA Nemotron 추론 LLM, NVIDIA Isaac GR00T N1.6 오픈 추론 VLA, NVIDIA Cosmos 월드 파운데이션 모델이 언급되며, AI 빌더가 자신의 에이전트를 만들 수 있는 구성 요소가 이미 준비되어 있다는 점을 강조한다. 이어서 단순한 온라인 에이전트를 넘어, 사용자의 책상 위에서 말하고 협업하며 개인 데이터를 사적으로 처리할 수 있는 ‘AI buddy’라는 문제의식을 제시한다. Jensen Huang의 CES 키노트에서 DGX Spark의 처리 능력과 Reachy Mini를 결합해 작은 사무실용 R2D2 같은 경험을 구현할 수 있음을 보여주었다고 설명한다.
2. 데모를 구성하는 기본 재료
구현에 필요한 재료는 명확하게 나열된다. 추론 모델로는 NVIDIA Nemotron 3 Nano, 비전 모델로는 NVIDIA Nemotron Nano 2 VL, 텍스트 음성 변환 모델로는 ElevenLabs가 사용된다. 여기에 Reachy Mini 또는 Reachy Mini Simulation, Python 3.10 이상 환경과 uv가 필요하다. 글은 바로 시작하고 싶은 독자를 위해 데모 소스 코드 저장소도 제공한다고 안내한다. 모델 통합 방식은 하나로 고정되어 있지 않으며, DGX Spark나 충분한 VRAM을 갖춘 GPU에서 로컬로 실행하거나, NVIDIA Brev 또는 Hugging Face Inference Endpoints 같은 클라우드 GPU 환경에 배포하거나, NVIDIA 또는 Hugging Face Inference Providers의 서버리스 모델 엔드포인트를 호출할 수 있다고 설명한다.
3. Reachy Mini가 에이전트 경험을 바꾸는 방식
글은 AI 에이전트를 단순한 채팅 인터페이스에서 자연스럽게 상호작용할 수 있는 존재로 바꾸면 대화 경험이 더 현실적으로 느껴진다고 설명한다. 카메라를 통해 보고, 소리 내어 말하며, 실제 행동을 수행할 수 있을 때 사용자는 더 몰입감 있는 에이전트 경험을 얻는다. Reachy Mini는 이러한 경험을 가능하게 하는 물리적 접점으로 소개된다. 센서, 액추에이터, API에 접근할 수 있어 기존 에이전트 스택과 쉽게 연결할 수 있고, 시뮬레이션 또는 Python으로 직접 제어되는 실제 하드웨어 모두를 지원한다. 이 구조에서 Reachy Mini는 지각, 추론, 행동이 만나는 물리적 엔드포인트 역할을 맡는다.
4. 느슨하게 결합된 오픈 구성 요소 중심 설계
이 글의 구현 방향은 새로운 구성 요소를 처음부터 다시 만드는 것이 아니라, 이미 존재하는 빌딩 블록을 조합하는 데 있다. 추론과 비전을 위한 오픈 모델, 오케스트레이션을 위한 에이전트 프레임워크, 행동을 처리하는 도구 핸들러를 함께 묶는다. 각 구성 요소는 느슨하게 결합되어 있어 모델을 교체하거나, 라우팅 로직을 바꾸거나, 새로운 행동을 추가하기 쉽다. 글은 이 접근이 폐쇄형 개인 비서와 다르다고 강조한다. 사용자는 모델, 프롬프트, 도구, 로봇의 행동을 직접 제어하며, Reachy Mini는 그 제어 가능한 에이전트 시스템이 현실 세계와 만나는 인터페이스가 된다.
5. NeMo Agent Toolkit으로 에이전트 워크플로 구성
예제에서는 NVIDIA NeMo Agent Toolkit을 사용해 에이전트의 여러 구성 요소를 연결한다. 이 툴킷은 유연하고 가벼우며 프레임워크에 종속되지 않는 오픈소스 라이브러리로 소개된다. LangChain, LangGraph, CrewAI 같은 다른 에이전트 프레임워크와도 함께 사용할 수 있고, 모델 간 상호작용과 입력·출력 라우팅을 처리한다. 또한 서로 다른 설정을 실험하거나 새로운 기능을 추가할 때 핵심 로직을 다시 작성하지 않아도 되게 한다. 글은 툴킷이 토큰 사용 효율과 지연 시간을 추적하고, 병목을 식별하며, 정확도를 높이면서 비용과 지연을 줄이기 위한 하이퍼파라미터 튜닝 기능도 제공한다고 설명한다.
6. 초기 설정과 기본 채팅 인터페이스 구축
구현의 첫 단계는 저장소를 클론하고 필요한 모델과 서비스에 접근할 수 있도록 설정하는 것이다. Nemotron 모델 기반의 지능 계층은 NVIDIA NIM 또는 vLLM으로 배포할 수 있고, build.nvidia.com에서 제공되는 원격 엔드포인트에 연결할 수도 있다. 글의 안내는 엔드포인트를 사용하는 경우를 기준으로 하며, 이때 메인 디렉터리에 .env 파일을 만들고 NVIDIA API 키와 ElevenLabs API 키를 넣도록 설명한다. 로컬 배포를 사용하는 경우에는 API 키를 지정하지 않아도 된다고 덧붙인다. 이후 nat 디렉터리에서 uv venv, uv sync를 실행하고, nat serve 명령으로 설정 파일을 전달해 포트 8001에서 NeMo Agent Toolkit API 서버를 띄운다.
7. ReAct 에이전트와 도구 호출 추가
글은 도구 호출이 AI 에이전트의 핵심 기능이라고 설명하며, NeMo Agent Toolkit에 포함된 ReAct 에이전트를 활용한다. ReAct 에이전트는 답변을 생성하기 전에 도구 호출 사이에서 추론하고, 필요하다면 여러 도구를 사용할 수 있다. 예제에서는 행동 요청을 도구 호출이 가능한 ReAct 에이전트로 라우팅하며, 로봇 행동을 트리거하거나 현재 로봇 상태를 가져오는 도구 같은 사용 사례를 염두에 둔다. 실무적인 주의점도 제시된다. 도구 이름, 설명, 인자 스키마를 명확하고 좁게 정의해야 에이전트가 어떤 도구를 호출할지 판단하기 쉽고, max_tool_calls 같은 상한을 둬 무한히 반복되는 상황을 막아야 한다. 실제 로봇을 사용할 때는 물리적 움직임의 안전을 위해 작동 전 확인 패턴도 고려하라고 권한다.
8. 라우터로 텍스트, 시각 이해, 행동 요청을 분기
세 번째 단계의 핵심은 하나의 모델을 모든 요청에 사용하지 않는 것이다. 단순 텍스트 질문은 빠른 텍스트 모델로 보내고, 시각 정보가 필요한 질문은 카메라나 Reachy에서 캡처한 이미지와 함께 VLM으로 보낸다. 실시간 정보가 필요하거나 도구 호출이 필요한 요청은 ReAct 에이전트와 도구로 라우팅한다. 라우팅은 휴리스틱, 가벼운 분류기, 전용 라우팅 서비스 등 여러 방식으로 구현할 수 있다고 설명한다. 예제 설정에서는 chit_chat, image_understanding, other 같은 경로를 정의하고, routing_llm으로 microsoft/phi-3-mini-128k-instruct를 사용한다. 비용과 지연 시간을 줄이거나 오프라인 실행을 원할 때는 빠른 텍스트 모델만 자체 호스팅하고 VLM은 원격으로 유지하는 방식도 가능하다고 덧붙인다.
9. Pipecat으로 실시간 음성·비전 상호작용 구현
네 번째 단계에서는 실시간 상호작용을 위해 Pipecat을 추가한다. Pipecat은 저지연 음성 및 멀티모달 에이전트를 만들기 위한 프레임워크로, 오디오와 비디오 스트림, AI 서비스, 전송 계층을 조율한다. 이 저장소에서 봇 서비스는 로봇 카메라를 통한 비전 캡처, 음성 인식과 텍스트 음성 변환, 로봇 움직임과 표현 행동의 조정을 담당한다. 관련 코드는 reachy-personal-assistant/bot 폴더에 있다고 안내된다. 이 단계는 이전까지 구성한 모델 라우팅과 도구 호출 워크플로를 사용자가 실제로 말하고 보고 반응하는 인터페이스와 연결하는 역할을 한다. 따라서 채팅형 에이전트가 음성과 영상, 로봇 동작을 포함한 실시간 에이전트로 확장된다.
10. 전체 시스템 실행과 테스트 프롬프트
마지막 실행 단계에서는 Reachy Mini 하드웨어 또는 시뮬레이션을 시스템에 연결한다. Reachy Mini는 나머지 시스템이 접속하는 데몬을 노출하며, 저장소는 기본적으로 --sim 플래그를 사용해 시뮬레이션으로 데몬을 실행한다. 실제 하드웨어를 사용할 경우 이 플래그를 제거하면 같은 코드가 로봇을 제어한다고 설명한다. 전체 시스템은 세 개의 터미널에서 실행된다. 첫 번째 터미널은 Reachy 데몬, 두 번째는 bot 서비스, 세 번째는 NeMo Agent Toolkit 서비스를 담당한다. 이후 Reachy Sim 창과 Pipecat Playground를 확인하고, 브라우저에서 localhost:7860에 접속해 CONNECT를 누른 뒤 마이크와 카메라 권한을 허용한다. 상태 표시가 READY가 되면 봇이 인사하고, 사용자는 짧은 기능 설명 요청이나 카메라 앞 물체 인식 같은 예시 프롬프트로 테스트할 수 있다.
🧾 핵심 주장 / 시사점
- 이 글의 핵심은 더 큰 단일 모델보다 역할별 모델 라우팅과 도구 연결, 실시간 인터페이스를 조합하는 시스템 설계에 있다.
- Reachy Mini는 에이전트의 지능 자체라기보다, 비전·음성·행동을 현실 세계에 연결하는 물리적 엔드포인트로 설계되어 있다.
- 오픈 모델과 교체 가능한 구성 요소를 강조하는 방식은 개인형 에이전트를 폐쇄형 제품이 아니라 사용자가 직접 통제하고 확장하는 스택으로 바라보게 한다.
✅ 액션 아이템
- OpenAI와 DGX가 바꾸는 업무·제품 흐름을 OpenAI 같은 원문 근거로 분해해 실제 적용 범위를 점검한다.
- DGX와 AI agents의 연결 지점을 기준으로 사용자 경험, 운영 비용, 보안·책임 경계를 나눠 검토한다.
- 후속 발표나 운영 데이터가 나오면 OpenAI의 DGX 실행 성과를 원문에서 제시한 지표와 다시 비교한다.
❓ 열린 질문
- OpenAI의 DGX 변화가 실제 사용자 워크플로에 자리 잡으려면 OpenAI 중 어떤 지표가 먼저 개선되어야 할까?
- DGX와 AI agents 조합은 다른 조직이나 제품 환경에서도 같은 효과를 낼 수 있을까?
- OpenAI가 DGX의 신뢰성을 증명하려면 어떤 후속 데이터나 운영 사례를 공개해야 할까?