NVIDIA Accelerates Google DeepMind’s DiffusionGemma for Local AI

💡 한 줄 요약

NVIDIA는 Google DeepMind의 실험적 오픈 모델 DiffusionGemma를 RTX, RTX PRO, DGX Spark·DGX Station 환경에 최적화해 로컬 단일 사용자 텍스트 생성 지연을 크게 낮췄다고 설명한다.

📌 핵심 요약

DiffusionGemma는 기존 대다수 LLM처럼 토큰을 한 번에 하나씩 순차 생성하는 방식이 아니라, 노이즈에서 시작해 최대 256개 토큰 블록을 병렬로 정제하는 확산 기반 텍스트 생성 모델이다.
이 모델은 Gemma 4 기반의 260억 파라미터 mixture-of-experts 구조 위에 만들어졌으며, 단계마다 38억 파라미터만 활성화해 확산 헤드와 Gemma 4 아키텍처를 결합한다.
NVIDIA는 DiffusionGemma의 병렬 연산 특성이 GPU의 Tensor Core와 CUDA 소프트웨어 스택에 잘 맞아, 단일 사용자 로컬 생성에서 기존 자기회귀 모델 대비 최대 약 4배 빠른 성능을 낸다고 강조한다.
성능 수치로는 단일 NVIDIA H100 Tensor Core GPU에서 초당 1,000토큰, DGX Spark에서 초당 150토큰, DGX Station에서 최대 초당 2,000토큰이 제시됐으며 RTX PRO 워크스테이션과 GeForce RTX GPU 지원도 언급됐다.
개발자는 Hugging Face Transformers, vLLM, Unsloth, NVIDIA NeMo 등을 통해 로컬 테스트, 고처리량 서빙, 특정 작업·도메인 fine-tuning을 시작할 수 있고, NVIDIA는 관련 playbook과 호스팅 API도 함께 안내한다.

🧩 주요 포인트

DiffusionGemma는 기존 대다수 LLM처럼 토큰을 한 번에 하나씩 순차 생성하는 방식이 아니라, 노이즈에서 시작해 최대 256개 토큰 블록을 병렬로 정제하는 확산 기반 텍스트 생성 모델이다.
이 모델은 Gemma 4 기반의 260억 파라미터 mixture-of-experts 구조 위에 만들어졌으며, 단계마다 38억 파라미터만 활성화해 확산 헤드와 Gemma 4 아키텍처를 결합한다.
NVIDIA는 DiffusionGemma의 병렬 연산 특성이 GPU의 Tensor Core와 CUDA 소프트웨어 스택에 잘 맞아, 단일 사용자 로컬 생성에서 기존 자기회귀 모델 대비 최대 약 4배 빠른 성능을 낸다고 강조한다.
성능 수치로는 단일 NVIDIA H100 Tensor Core GPU에서 초당 1,000토큰, DGX Spark에서 초당 150토큰, DGX Station에서 최대 초당 2,000토큰이 제시됐으며 RTX PRO 워크스테이션과 GeForce RTX GPU 지원도 언급됐다.
개발자는 Hugging Face Transformers, vLLM, Unsloth, NVIDIA NeMo 등을 통해 로컬 테스트, 고처리량 서빙, 특정 작업·도메인 fine-tuning을 시작할 수 있고, NVIDIA는 관련 playbook과 호스팅 API도 함께 안내한다.

🧠 상세 정리

1. DiffusionGemma의 공개와 NVIDIA 최적화

글은 Google DeepMind가 빠른 텍스트 생성을 목표로 한 실험적 오픈 모델 DiffusionGemma를 공개했다는 소식에서 출발한다. NVIDIA는 이 모델을 GeForce RTX GPU, NVIDIA RTX PRO 플랫폼, NVIDIA DGX Spark 시스템 등에서 더 빠르게 실행되도록 최적화했다고 설명한다. 적용 범위는 로컬 PC부터 클라우드 환경까지로 제시되지만, 글의 중심은 특히 로컬 하드웨어에서의 낮은 지연 시간과 단일 사용자 워크로드에 맞춰져 있다. DiffusionGemma는 오픈 웨이트 모델이며 Apache 2.0 라이선스 아래 제공된다는 점도 강조된다.

2. 순차 생성이 아닌 블록 단위 병렬 생성

본문은 기존에 널리 쓰이는 대형 언어 모델 대부분이 자기회귀 방식, 즉 한 토큰을 만든 뒤 다음 토큰을 계산하는 순차 구조라고 설명한다. 이 방식은 대화형 AI가 마치 타이핑하듯 보이게 만들지만, 각 단계가 이전 결과에 의존하기 때문에 지연이 생긴다. DiffusionGemma는 이와 달리 이미지 확산 모델처럼 노이즈에서 시작해 전체 텍스트 블록을 한꺼번에 정제한다. 한 단계에서 최대 256개 토큰을 병렬로 denoise하므로, 단일 토큰을 내보내고 다음 계산을 기다리는 흐름과 다른 생성 방식을 취한다.

3. Gemma 4 기반 구조와 단일 사용자 워크로드의 의미

DiffusionGemma는 Gemma 4의 260억 파라미터 mixture-of-experts 아키텍처를 기반으로 하며, 각 단계에서 38억 파라미터만 활성화한다고 소개된다. 여기에 확산 헤드가 결합되어 텍스트를 순차열이 아니라 블록 단위로 다루는 설계가 만들어진다. 글은 이 구조가 인터랙티브 채팅, agentic loop, 온디바이스 어시스턴트처럼 빠르게 계획하고 실행해야 하는 단일 사용자 작업에 적합하다고 본다. 개발자나 연구자가 반복적으로 생각하고 실험하는 속도에 응답 생성이 따라붙을 수 있다는 점이 핵심 주장이다.

4. GPU에 유리한 계산 특성과 성능 수치

NVIDIA는 토큰을 하나씩 생성하는 전통적 LLM 추론이 주로 메모리 대역폭에 묶이는 문제라고 설명한다. 반면 DiffusionGemma처럼 256토큰 블록을 병렬로 transformer에 통과시키는 방식은 더 계산 중심적인 워크로드가 되며, 이는 NVIDIA GPU의 강점과 잘 맞는다고 주장한다. Tensor Core는 조밀한 병렬 수학 연산을 가속하고, CUDA 소프트웨어 스택은 별도 맞춤 튜닝 없이도 초기부터 효율적으로 실행되도록 돕는 요소로 제시된다. 성능 예시로는 H100에서 초당 1,000토큰, DGX Spark에서 초당 150토큰, DGX Station에서 최대 초당 2,000토큰이 언급된다.

5. 지원 하드웨어와 로컬 실행 시나리오

글은 DiffusionGemma의 이점이 NVIDIA의 여러 하드웨어 라인업에 걸쳐 적용된다고 설명한다. DGX Spark는 GB10 Grace Blackwell Superchip과 128GB 통합 메모리를 갖춘 데스크사이드 개인 AI 슈퍼컴퓨터로 소개되며, 프로토타이핑과 fine-tuning, 완전 로컬 agent workflow에 맞는 사전 설치 AI 소프트웨어 스택을 제공한다고 한다. RTX PRO 6000 워크스테이션은 개발자와 연구자, AI 전문가가 로컬 저지연 생성과 agentic loop를 전문 워크플로에 포함할 수 있는 여유를 제공하는 장비로 언급된다. DGX Station은 748GB coherent memory와 최대 초당 2,000토큰 성능을 통해 고속 로컬 추론을 지원하며, GeForce RTX GPU에는 llama.cpp 지원이 곧 제공될 예정이라고 덧붙인다.

6. 개발자가 시작할 수 있는 도구와 배포 경로

시작 방법으로는 Hugging Face Transformers가 가장 빠른 테스트와 프로토타이핑 경로로 제시되며, GeForce RTX 5090이나 DGX Spark에서 바로 DiffusionGemma를 실행할 수 있다고 설명한다. 더 높은 처리량의 추론에는 vLLM이 day-zero serving support를 제공한다고 한다. 특정 작업이나 도메인에 맞게 모델을 조정하려는 경우에는 Unsloth와 NVIDIA NeMo framework를 통한 fine-tuning이 가능하며, DGX Spark용 playbook도 준비되어 있다고 안내된다. 또한 DGX Spark, RTX PRO, DGX Station용 vLLM playbook과 Hugging Face, build.nvidia.com의 NVIDIA 호스팅 API, NVIDIA 기술 블로그와 Google DeepMind 발표가 추가 자료로 연결된다.

7. RTX AI Garage 관련 추가 소식

본문 후반의 ICYMI 섹션은 DiffusionGemma 본문과 별도로 RTX AI Garage의 최신 소식을 덧붙인다. NVIDIA 연구진의 SANA-WM은 단일 이미지와 카메라 경로를 입력으로 받아 6-DoF 제어가 가능한 1분 길이 720p 영상을 생성하는 오픈소스 월드 모델로 소개된다. 증류 버전은 26억 파라미터 규모이며 GeForce RTX 5090 한 장에서 NVFP4 형식으로 60초 영상을 34초에 생성한다고 설명된다. 이 밖에 NVIDIA와 Microsoft의 Windows agent sandboxing 도구, DGX Spark에서 로컬 에이전트를 빠르게 실행하는 NemoClaw 설치, 여러 DGX Spark를 512GB 풀로 연결하는 NVIDIA Sync 클러스터 어시스턴트도 함께 언급된다.

🧾 핵심 주장 / 시사점

DiffusionGemma의 핵심은 단순히 모델이 새로 나왔다는 점보다, 텍스트 생성을 순차 처리에서 블록 단위 병렬 정제로 바꿔 로컬 인터랙션 지연을 줄이려는 접근에 있다.
NVIDIA가 강조하는 성능 향상은 모델 구조와 GPU 하드웨어 특성이 맞물릴 때 단일 사용자 추론 병목이 메모리 중심에서 계산 중심으로 이동할 수 있다는 주장에 기반한다.
Hugging Face Transformers, vLLM, Unsloth, NeMo 지원을 함께 제시한 것은 연구용 공개 모델을 로컬 실험, 서빙, fine-tuning 워크플로로 빠르게 연결하려는 생태계 전략으로 볼 수 있다.

✅ 액션 아이템

GeForce RTX 5090 또는 DGX Spark에서 Hugging Face Transformers로 DiffusionGemma 로컬 프로토타입을 우선 실행해 초기 지연 특성을 확인한다.
단일 사용자 인터랙티브 채팅·에이전트 루프를 대상으로 병렬 256토큰 정제 방식이 응답 지연을 줄이는지 측정한다.
로컬 배포 후보를 RTX PRO 6000, DGX Spark, DGX Station으로 나눠 메모리와 처리량 요구가 맞는 워크플로를 분류한다.

❓ 열린 질문

DiffusionGemma의 4배 성능 우위가 어떤 동등 자기회귀 모델과 같은 단일 사용자 조건에서 비교된 것인지 확인할 필요가 있다.
Apache 2.0 오픈 웨이트 조건이 실제 제품 내 로컬 에이전트 워크플로 배포에 어떤 라이선스 의무를 남기는지 검토해야 한다.
day-zero 지원 도구 중 Transformers, vLLM, Unsloth 중 어느 경로가 로컬 테스트·서빙·fine-tuning 목적에 가장 적합한가?