NVIDIA Blackwell Leads on First Agentic AI Infrastructure Benchmark
Quick Summary
Artificial Analysis의 첫 AgentPerf 결과에서 NVIDIA Blackwell Ultra GB300 NVL72가 실제 에이전트형 AI 워크로드 기준으로 Hopper/H200 대비 메가와트당 최대 20배 많은 에이전트를 처리하며 선도적 성능을 보였다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
Artificial Analysis의 첫 AgentPerf 결과에서 NVIDIA Blackwell Ultra GB300 NVL72가 실제 에이전트형 AI 워크로드 기준으로 Hopper/H200 대비 메가와트당 최대 20배 많은 에이전트를 처리하며 선도적 성능을 보였다.
📌 핵심 요약
- AgentPerf는 Artificial Analysis가 공개한 업계 최초의 에이전트형 AI 벤치마크로, 개발자·기업·인프라 제공자가 실제 에이전트 워크로드에 맞춰 시스템을 비교할 수 있게 한다.
- 에이전트형 AI는 단일 LLM 호출로 끝나는 대화형 AI와 달리, 여러 LLM 호출과 도구 호출을 연쇄적으로 수행하며 파일 읽기, 코드 작성, 명령 실행, 검색 같은 단계를 반복한다.
- 첫 공개 결과에서 NVIDIA Blackwell Ultra GB300 NVL72는 DeepSeek V4 Pro 기반 워크로드에서 NVIDIA HGX H200/Hopper보다 메가와트당 최대 20배 많은 에이전트를 실행했다.
- GB300 NVL72의 성능 우위는 72개 GPU를 단일 랙 규모 시스템으로 연결하는 구조, 통신과 연산을 겹치는 CUDA 커널, 동시 에이전트 세션 확장 시 효율을 유지하는 TensorRT LLM 최적화에서 나온다.
- AgentPerf는 실제 공개 코드 저장소와 12개 이상 프로그래밍 언어에서 나온 코딩 에이전트 궤적을 기반으로 하며, 동시 에이전트 작업 수와 응답성·출력 토큰 속도 기준을 함께 측정한다.
🧩 주요 포인트
- AgentPerf는 Artificial Analysis가 공개한 업계 최초의 에이전트형 AI 벤치마크로, 개발자·기업·인프라 제공자가 실제 에이전트 워크로드에 맞춰 시스템을 비교할 수 있게 한다.
- 에이전트형 AI는 단일 LLM 호출로 끝나는 대화형 AI와 달리, 여러 LLM 호출과 도구 호출을 연쇄적으로 수행하며 파일 읽기, 코드 작성, 명령 실행, 검색 같은 단계를 반복한다.
- 첫 공개 결과에서 NVIDIA Blackwell Ultra GB300 NVL72는 DeepSeek V4 Pro 기반 워크로드에서 NVIDIA HGX H200/Hopper보다 메가와트당 최대 20배 많은 에이전트를 실행했다.
- GB300 NVL72의 성능 우위는 72개 GPU를 단일 랙 규모 시스템으로 연결하는 구조, 통신과 연산을 겹치는 CUDA 커널, 동시 에이전트 세션 확장 시 효율을 유지하는 TensorRT LLM 최적화에서 나온다.
- AgentPerf는 실제 공개 코드 저장소와 12개 이상 프로그래밍 언어에서 나온 코딩 에이전트 궤적을 기반으로 하며, 동시 에이전트 작업 수와 응답성·출력 토큰 속도 기준을 함께 측정한다.
🧠 상세 정리
1. AgentPerf가 제시한 새 측정 기준
Artificial Analysis의 AgentPerf는 에이전트형 AI 인프라를 비교하기 위한 첫 벤치마크로 소개된다. 기존 추론 벤치마크가 단일 LLM 요청의 응답 속도와 동시 처리량에 초점을 맞췄다면, AgentPerf는 실제 에이전트가 수행하는 연속적 작업 흐름을 기준으로 삼는다. 첫 공개 결과에서 NVIDIA Blackwell Ultra NVL72 플랫폼은 테스트된 에이전트형 AI 워크로드 전반에서 선도적 성능을 냈다. 특히 NVIDIA GB300 NVL72는 NVIDIA Hopper 대비 메가와트당 최대 20배 많은 에이전트를 실행한 것으로 제시된다.
2. 대화형 AI와 다른 에이전트형 AI의 부하
원문은 에이전트형 AI가 대화형 AI와 근본적으로 다른 워크로드라고 설명한다. 단일 채팅 완성은 하나의 LLM 호출과 하나의 응답으로 끝나는 ‘전력 질주’에 가깝지만, 에이전트는 목표를 여러 단계로 나누고 완료될 때까지 계속 진행하는 ‘릴레이’에 가깝다. 에이전트는 맥락을 수집하고 관찰하며 추론하고 행동하기 위해 여러 LLM 호출과 도구 호출을 연결한다. 그 결과 수십에서 수백 번의 LLM 호출이 이어지고, 각 단계마다 증가하는 컨텍스트와 코드 컴파일·실행, 데이터베이스 검색, 웹 브라우징 같은 도구 호출이 결합된다.
3. 기존 추론 벤치마크의 한계
이 차이는 성능 측정에서 매우 중요하게 다뤄진다. 기존 AI 추론 벤치마크는 LLM이 하나의 요청에 얼마나 빠르게 응답하는지, 그리고 시스템이 동시에 몇 개의 요청을 처리할 수 있는지를 주로 측정한다. 그러나 에이전트형 워크로드에서는 LLM 호출이 연쇄적으로 이어지고, 도구 호출 지연이 개입하며, 컨텍스트가 계속 커진다. 이런 요소들은 단일 LLM 호출만으로는 드러나지 않는 방식으로 가속 컴퓨팅 시스템에 부담을 주기 때문에, 기업이 대규모 에이전트를 배포하려면 응답성·동시성·전력 및 비용 대비 유용한 작업량을 함께 봐야 한다.
4. DeepSeek V4 Pro 기반 첫 결과와 GB300 NVL72의 우위
첫 라운드에서 AgentPerf는 DeepSeek V4 Pro를 사용해 에이전트 성능을 측정했다. 원문은 이 모델을 오늘날 가장 강력한 에이전트를 구동하는 프런티어 모델 계열을 대표하는 대형 MoE 모델로 설명한다. 이 워크로드에서 NVIDIA GB300 NVL72는 벤치마크 최고 성능을 기록했으며, NVIDIA HGX H200 시스템보다 메가와트당 최대 20배 많은 에이전트를 실행했다. 또한 20토큰/초와 60토큰/초라는 두 서비스 수준 목표에서 모두 H200보다 훨씬 많은 동시 에이전트를 메가와트당 지원한 것으로 제시된다.
5. 성능을 뒷받침한 풀스택 공동 설계
GB300 NVL72의 성능 이점은 전체 스택에 걸친 공동 설계에서 나온다고 설명된다. 이 시스템은 72개 GPU를 하나의 랙 규모 시스템으로 연결해 DeepSeek V4 Pro 같은 대형 MoE 모델이 모델 실행을 규모 있게 효율적으로 분산할 수 있도록 한다. CUDA 커널은 통신과 연산을 겹치게 만들어 여러 전문가 사이의 조정 비용이 지연 시간에 단순히 추가되지 않도록 돕는다. NVIDIA TensorRT LLM은 동시 에이전트 세션이 늘어날 때도 효율을 유지하며, 예를 들어 입력 처리와 출력 생성을 분리해 각각 독립적으로 최적화할 수 있게 한다.
6. 실제 코딩 에이전트 흐름과 산업 적용 사례
AgentPerf의 방법론은 실제 프로덕션에서 에이전트형 AI가 작동하는 방식에 맞춰 설계됐다고 원문은 강조한다. 벤치마크는 실제 코딩 에이전트 궤적을 바탕으로 하며, 에이전트가 작업을 받고 파일을 읽고 코드를 쓰거나 수정하고 명령을 실행한 뒤 결과에 따라 반복하는 흐름을 반영한다. 데이터는 12개 이상 프로그래밍 언어의 공개 코드 저장소에서 가져온다. 도구 호출은 실제 실행하지 않고 대표적인 CPU 처리 시간으로 시뮬레이션해 결과 차이가 가속 컴퓨팅 성능을 반영하도록 했으며, Baseten, DeepInfra, Together AI 같은 추론 제공업체가 이미 NVIDIA Blackwell에서 에이전트형 워크로드를 서비스하고 있다는 사례도 제시된다.
🧾 핵심 주장 / 시사점
- 에이전트형 AI 인프라 경쟁은 단일 요청 처리 속도보다 긴 작업 흐름, 누적 컨텍스트, 도구 호출 지연을 얼마나 안정적으로 흡수하느냐로 이동하고 있다.
- 메가와트당 동시 에이전트 수라는 지표는 대규모 배포 기업에게 성능뿐 아니라 전력·비용 대비 생산성을 판단하는 핵심 기준이 될 수 있다.
- 원문은 GB300 NVL72의 우위를 하드웨어 단독 성능이 아니라 랙 규모 GPU 연결, CUDA 커널, TensorRT LLM까지 포함한 풀스택 최적화의 결과로 설명한다.
✅ 액션 아이템
- 원문에서 강조한 핵심 변화와 이해관계자를 기준으로 NVIDIA Blackwell Leads on First Agentic AI Infrastructure Benchmark의 영향을 정리한다.
- 다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
- 기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
- 후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.
❓ 열린 질문
- NVIDIA Jetson Brings Agentic AI to the Physical World]]" "141. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
- Apple approves Poke as the first AI agent on its Messages for Business platform TechCrunch" "204. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
- Why enterprise AI will be a major focus at VivaTech 2026 TechCrunch" "208. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
- Introducing Notebooks – launch ML experiments with zero cold boots" "[[184. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?