NVIDIA's GTC 2025 Announcement for Physical AI Developers: New Open Models and Datasets
Quick Summary
엔비디아는 GTC 2025에서 물리 AI 개발을 가속하기 위해 Cosmos Transfer, Physical AI Dataset, Isaac GR00T N1을 공개했다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
엔비디아는 GTC 2025에서 물리 AI 개발을 가속하기 위해 Cosmos Transfer, Physical AI Dataset, Isaac GR00T N1을 공개했다.
📌 핵심 요약
- 엔비디아는 GTC 2025에서 로보틱스와 자율주행 개발을 겨냥한 세 가지 오픈 릴리스를 발표했다.
- Cosmos Transfer는 멀티컨트롤을 활용해 구조 입력에 맞춰 사실적인 가상 세계 영상 장면을 생성하는 70억 파라미터 규모의 세계 기반 모델이다.
- Physical AI Dataset은 로봇 학습용 32만 개 이상의 궤적과 최대 1,000개의 OpenUSD 자산을 포함한 15TB 규모의 상업 등급 공개 데이터셋이다.
- Isaac GR00T N1은 언어와 이미지 등 멀티모달 입력을 받아 휴머노이드 로봇의 조작 작업을 수행하도록 설계된 범용 휴머노이드 추론·기술용 오픈 기반 모델이다.
- 글은 물리 AI의 다음 단계가 특정 구현체, 작업, 환경에 맞춘 포스트트레이닝이며, 관련 모델·데이터·스크립트가 GitHub와 Hugging Face에 공개됐다고 정리한다.
🧩 주요 포인트
- 엔비디아는 GTC 2025에서 로보틱스와 자율주행 개발을 겨냥한 세 가지 오픈 릴리스를 발표했다.
- Cosmos Transfer는 멀티컨트롤을 활용해 구조 입력에 맞춰 사실적인 가상 세계 영상 장면을 생성하는 70억 파라미터 규모의 세계 기반 모델이다.
- Physical AI Dataset은 로봇 학습용 32만 개 이상의 궤적과 최대 1,000개의 OpenUSD 자산을 포함한 15TB 규모의 상업 등급 공개 데이터셋이다.
- Isaac GR00T N1은 언어와 이미지 등 멀티모달 입력을 받아 휴머노이드 로봇의 조작 작업을 수행하도록 설계된 범용 휴머노이드 추론·기술용 오픈 기반 모델이다.
- 글은 물리 AI의 다음 단계가 특정 구현체, 작업, 환경에 맞춘 포스트트레이닝이며, 관련 모델·데이터·스크립트가 GitHub와 Hugging Face에 공개됐다고 정리한다.
🧠 상세 정리
1. GTC 2025에서 공개된 물리 AI 개발 도구
글은 엔비디아가 연례 GTC 2025 행사에서 물리 AI 개발자를 위한 세 가지 오픈소스 릴리스를 공개했다는 내용으로 시작한다. 발표의 중심은 멀티컨트롤을 갖춘 세계 기반 모델인 Cosmos Transfer, 선별된 Physical AI Dataset, 그리고 범용 휴머노이드 추론을 위한 첫 오픈 모델인 NVIDIA Isaac GR00T N1이다. 이 세 가지는 로보틱스 시스템과 자율주행 기술을 발전시키기 위한 도구와 자원을 제공한다는 맥락에서 제시된다. 원문은 이 발표를 물리 AI 기술의 중요한 진전으로 설명하며, 개발자가 합성 데이터 생성, 모델 학습, 휴머노이드 제어까지 연결된 개발 흐름을 만들 수 있다는 점을 강조한다.
2. Cosmos Transfer의 역할과 입력 제어 방식
Cosmos Transfer는 NVIDIA Cosmos 세계 기반 모델 제품군에 새로 추가된 모델로, 가상 세계 장면 생성에서 더 높은 제어력과 정확도를 제공하는 데 초점을 둔다. 원문에 따르면 이 모델은 70억 파라미터 규모로 제공되며, 구조적 입력을 바탕으로 고충실도 세계 장면을 생성한다. 핵심은 공간 정렬과 장면 구성을 정밀하게 유지할 수 있도록 멀티컨트롤을 사용한다는 점이다. 개발자는 세그멘테이션 맵, 깊이 맵, 엣지 맵, 사람 움직임 키포인트, LiDAR 스캔, 궤적, HD 맵, 3D 바운딩 박스 같은 시각·기하학적 입력을 활용해 출력 결과를 유도할 수 있다.
3. ControlNet 기반 구조와 사실적 영상 생성
Cosmos Transfer는 시뮬레이션 세계를 캡처하는 각 센서 모달리티에 대해 개별 ControlNet을 따로 학습하는 방식으로 구성된다. 원문에서 언급된 입력 유형에는 3D 바운딩 박스 맵, 궤적 맵, 깊이 맵, 세그멘테이션 맵이 포함된다. 추론 시에는 각 제어 분기의 신호가 대응하는 적응형 시공간 제어 맵과 곱해지고, 이후 합산되어 기본 모델의 트랜스포머 블록에 더해진다. 그 결과 모델은 레이아웃, 객체 배치, 움직임이 통제된 포토리얼리스틱 비디오 시퀀스를 생성한다. 개발자는 구조와 외형을 보존하거나, 구조는 유지하면서 외형 변화를 허용하는 방식으로 출력 조건을 조절할 수 있다.
4. Physical AI Dataset의 규모와 목적
엔비디아는 물리 AI 개발을 위한 오픈소스 데이터셋인 Physical AI Dataset도 Hugging Face에 공개했다. 이 데이터셋은 상업 등급으로 사전 검증된 15TB 규모의 자료이며, 로보틱스 학습을 위한 32만 개 이상의 궤적을 포함한다. 또한 최대 1,000개의 Universal Scene Description, 즉 OpenUSD 자산이 포함되어 있고, 그 안에는 SimReady 컬렉션도 포함된다고 설명된다. 원문은 이 데이터셋이 Cosmos Predict 같은 기반 모델의 포스트트레이닝을 위해 설계됐다고 밝힌다. 즉 개발자가 고품질·다양한 데이터를 활용해 물리 AI 모델을 개선하도록 돕는 것이 핵심 목적이다.
5. Isaac GR00T N1과 휴머노이드 조작 능력
Isaac GR00T N1은 범용 휴머노이드 로봇 추론과 기술을 위한 세계 최초의 오픈 기반 모델로 소개된다. 이 모델은 언어와 이미지 같은 멀티모달 입력을 받아 다양한 환경에서 조작 작업을 수행하도록 설계된 크로스 엠보디먼트 모델이다. 원문은 NVIDIA Isaac GR00T-N1-2B 모델이 Hugging Face에서 제공된다고 설명한다. 학습에는 실제 캡처 데이터, NVIDIA Isaac GR00T Blueprint 구성 요소로 생성된 합성 데이터, 인터넷 규모 비디오 데이터가 사용됐다. 또한 특정 로봇 구현체, 작업, 환경에 맞춰 포스트트레이닝으로 적응할 수 있으며, Fourier GR-1과 1X Neo 같은 여러 휴머노이드 로봇에서 동일한 모델과 가중치로 조작 행동을 가능하게 한다.
6. 이중 시스템 아키텍처와 향후 방향
Isaac GR00T N1은 인간 인지에서 영감을 받은 이중 시스템 아키텍처를 특징으로 한다. System 2에 해당하는 비전-언어 모델은 NVIDIA-Eagle과 SmolLM-1.7B를 기반으로 하며, 시각 정보와 언어 지시를 해석해 로봇이 환경과 명령을 이해하고 적절한 행동을 계획하도록 돕는다. System 1에 해당하는 Diffusion Transformer는 System 2가 만든 행동 계획을 정밀하고 연속적인 로봇 움직임으로 변환한다. 원문은 이 모델이 한 팔 또는 양팔로 물체를 잡고 조작하거나, 팔 사이에서 물건을 옮기고, 지속적인 맥락 이해가 필요한 복합 다단계 작업도 수행할 수 있다고 설명한다. 마지막으로 글은 자율 시스템 발전의 핵심 경로로 포스트트레이닝을 제시하며, 관련 추론 스크립트, 샘플 데이터셋, PyTorch 스크립트, 연구 논문이 공개되어 있다고 안내한다.
🧾 핵심 주장 / 시사점
- 이번 발표의 핵심은 개별 모델 공개가 아니라, 합성 세계 생성·검증된 학습 데이터·휴머노이드 제어 모델을 하나의 물리 AI 개발 파이프라인으로 묶었다는 점이다.
- Cosmos Transfer의 멀티컨트롤 구조는 로보틱스와 자율주행 개발에서 필요한 장면 조건을 더 명시적으로 제어하면서 합성 데이터를 만들 수 있게 하는 방향을 보여준다.
- Isaac GR00T N1은 범용 휴머노이드 모델도 특정 로봇과 작업에 맞춘 포스트트레이닝을 전제로 발전한다는 점을 강조하며, 원문은 포스트트레이닝을 자율 시스템 고도화의 다음 단계로 제시한다.
✅ 액션 아이템
- Cosmos Transfer를 가상 세계 영상 장면 생성 도구로 검토하고, 구조 입력과 멀티컨트롤 기반 워크플로에 맞는 활용 지점을 정리한다.
- Physical AI Dataset의 궤적 데이터와 OpenUSD 자산을 로봇 학습·시뮬레이션 데이터 파이프라인에 어떻게 연결할지 평가한다.
- Isaac GR00T N1을 휴머노이드 조작 작업의 포스트트레이닝 후보로 두고, 언어·이미지 입력 기반 작업 시나리오를 정의한다.
❓ 열린 질문
- Cosmos Transfer가 생성하는 사실적 가상 세계 장면은 어떤 로보틱스·자율주행 개발 단계에서 가장 큰 시간 절감 효과를 낼 수 있을까?
- 15TB 규모의 Physical AI Dataset을 실제 학습에 쓰려면 데이터 선별, 저장, OpenUSD 자산 관리에서 어떤 운영 기준이 필요할까?
- Isaac GR00T N1을 특정 휴머노이드 구현체와 작업 환경에 맞게 포스트트레이닝할 때 우선 맞춰야 할 입력·출력 조건은 무엇일까?