Measuring the performance of our models on real-world tasks
Quick Summary
OpenAI는 실제 경제 활동에서 수행되는 지식노동 과제를 기준으로 AI 모델 성능을 측정하는 새 평가 체계 GDPval을 소개했다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
OpenAI는 실제 경제 활동에서 수행되는 지식노동 과제를 기준으로 AI 모델 성능을 측정하는 새 평가 체계 GDPval을 소개했다.
📌 핵심 요약
- GDPval은 미국 GDP 기여도가 큰 산업과 그 안의 주요 지식노동 직업에서 실제 업무 산출물을 바탕으로 만든 평가다.
- OpenAI는 기존 학술형 벤치마크가 일상 업무의 복잡성과 산출물 형식을 충분히 반영하지 못한다고 보고, 더 현실적인 평가가 필요하다고 설명한다.
- 첫 버전은 9개 산업, 44개 직업, 1,320개 전문 과제로 구성되며, 그중 220개는 공개된 골드 세트로 제공된다.
- 각 과제는 평균 14년 이상의 경험을 가진 현업 전문가가 만들고 여러 차례 검토했으며, 문서·슬라이드·도면·스프레드시트·멀티미디어 등 실제 업무 산출물을 요구한다.
- 평가는 같은 직업군의 전문가가 인간 산출물과 모델 산출물을 블라인드 비교하는 방식으로 진행되며, 자동 채점기도 연구용으로 제공되지만 전문가 평가를 대체하지는 않는다.
🧩 주요 포인트
- GDPval은 미국 GDP 기여도가 큰 산업과 그 안의 주요 지식노동 직업에서 실제 업무 산출물을 바탕으로 만든 평가다.
- OpenAI는 기존 학술형 벤치마크가 일상 업무의 복잡성과 산출물 형식을 충분히 반영하지 못한다고 보고, 더 현실적인 평가가 필요하다고 설명한다.
- 첫 버전은 9개 산업, 44개 직업, 1,320개 전문 과제로 구성되며, 그중 220개는 공개된 골드 세트로 제공된다.
- 각 과제는 평균 14년 이상의 경험을 가진 현업 전문가가 만들고 여러 차례 검토했으며, 문서·슬라이드·도면·스프레드시트·멀티미디어 등 실제 업무 산출물을 요구한다.
- 평가는 같은 직업군의 전문가가 인간 산출물과 모델 산출물을 블라인드 비교하는 방식으로 진행되며, 자동 채점기도 연구용으로 제공되지만 전문가 평가를 대체하지는 않는다.
🧠 상세 정리
1. GDPval을 도입한 목적
OpenAI는 인공 일반 지능이 인류 전체에 이익이 되도록 한다는 목표의 일부로, AI 모델이 실제 세계에서 사람들을 어떻게 도울 수 있는지 투명하게 보여주고자 한다고 설명한다. GDPval은 이런 목적에서 만들어진 새 평가 체계로, 모델이 경제적으로 가치 있는 실제 업무 과제에서 얼마나 잘 수행하는지를 추적한다. 이름은 국내총생산을 뜻하는 GDP에서 가져왔으며, GDP에 크게 기여하는 산업과 그 산업 안의 핵심 직업에서 과제를 뽑았다는 점을 반영한다. 핵심은 모델 성능을 추상적인 시험 점수만이 아니라 실제 직업 현장의 산출물 기준으로 보려는 데 있다.
2. 추측이 아니라 실제 역량에 근거한 논의
글은 AI가 사회에 미칠 장기적 영향에 대해 많은 추측이 있지만, 그 가능성을 이해하는 가장 분명한 방법은 모델이 지금 이미 무엇을 할 수 있는지 살펴보는 것이라고 말한다. 인터넷이나 스마트폰 같은 주요 기술도 발명에서 대중적 채택까지 10년 이상 걸렸다는 역사적 사례를 언급하며, 기술 확산과 영향은 시간이 걸리는 과정임을 전제한다. GDPval 같은 평가는 미래 AI 개선에 대한 논의를 추측이 아니라 증거에 기반하게 만드는 도구로 제시된다. 또한 시간이 지나며 모델 개선을 추적할 수 있는 기준점 역할도 한다.
3. 기존 벤치마크의 한계와 GDPval의 위치
OpenAI는 MMLU 같은 학술 시험형 평가, SWE-Bench 같은 소프트웨어 버그 수정 평가, MLE-Bench의 머신러닝 엔지니어링 과제, Paper-Bench의 논문 추론·비평 평가가 모델 추론 능력 발전에 중요했다고 인정한다. 하지만 이런 평가는 많은 사람이 일상 업무에서 처리하는 종류의 과제를 충분히 반영하지 못한다고 본다. 이후 SWE-Lancer처럼 실제 보상과 연결된 프리랜스 소프트웨어 프로젝트 평가도 등장했지만, 특정 영역에 집중된 성격이 있다. GDPval은 이 흐름의 다음 단계로, 다양한 직업과 산업의 실제 지식노동 과제에서 모델 성능을 보려는 평가로 설명된다.
4. 평가 대상 산업과 직업 선정 방식
GDPval의 첫 버전은 미국 GDP에 5% 이상 기여하는 상위 9개 산업을 기준으로 구성됐다. 산업 선정에는 세인트루이스 연방준비은행 자료가 사용됐고, 각 산업 안에서는 임금과 고용 데이터를 바탕으로 총 임금·보상 기여도가 큰 직업을 골랐다. 여기에 2024년 5월 미국 노동통계국의 직업 고용 보고서와 O*NET의 직업 과제 데이터를 활용해 해당 직업이 주로 지식노동인지 판단했다. 개별 직무 과제 중 물리적 작업이나 수작업이 아닌 항목이 60% 이상이면 ‘주로 지식노동’ 직업으로 분류했으며, 이는 AI가 현실 생산성에 큰 영향을 줄 수 있는 직업에 초점을 맞추기 위한 첫 기준이다.
5. 데이터셋의 규모와 구성
GDPval은 44개 지식노동 직업과 9개 부문에 걸쳐 있으며, 소프트웨어 개발자와 변호사부터 등록 간호사와 기계 엔지니어까지 폭넓은 직업을 포함한다. 전체 세트에는 직업당 30개씩 모두 1,320개의 전문 과제가 들어 있고, 공개된 골드 세트에는 직업당 5개씩 모두 220개 과제가 포함된다. 각 과제는 실제 업무 산출물에서 출발하거나 오늘날 존재하는 업무 산출물과 유사하게 구성된 작업을 바탕으로 한다. 법률 의견서, 엔지니어링 청사진, 고객 지원 대화, 간호 계획 같은 예시가 제시되며, 단순한 문답보다 실제 산출물 작성 능력을 보려는 설계가 강조된다.
6. 전문가가 만든 현실적인 과제
각 과제는 해당 직업의 경험 많은 전문가들이 만들었으며, 이들의 평균 경력은 14년 이상이라고 설명된다. OpenAI는 대표성을 높이기 위해 한 직업 안에서도 다양한 배경의 전문가를 모집했다고 밝힌다. 예를 들어 변호사의 경우 서로 다른 업무 분야와 다양한 규모의 로펌 출신을 포함하는 식으로 폭을 넓혔다. 과제는 실제 업무를 대표하는지, 다른 전문가가 수행할 수 있을 만큼 실행 가능한지, 평가 기준이 명확한지를 확인하는 다단계 검토를 거쳤다. 평균적으로 각 과제는 다른 작성자, 직업군 검토자, 모델 기반 검증을 포함해 5차례의 전문가 검토를 받았다.
7. 단순 프롬프트가 아닌 실제 업무 산출물 평가
GDPval 과제는 전통적인 벤치마크처럼 단순한 텍스트 프롬프트만으로 이루어지지 않는다. 과제에는 참조 파일과 맥락이 함께 제공되며, 기대 산출물도 문서, 프레젠테이션, 도표, 스프레드시트, 멀티미디어 등 다양한 형식을 포함한다. 본문에 제시된 제조 엔지니어 예시는 자동차 조립 라인의 케이블 스풀 테스트를 한 사람이 수행할 수 있도록 지그나 픽스처의 예비 개념 설계를 만들고, 3D 모델 스냅샷을 활용한 PDF 발표 자료를 제출하는 업무다. 이처럼 실제 직무에서 요구되는 맥락, 제약, 산출물 형식을 반영하기 때문에 모델이 전문가를 어떻게 지원할 수 있는지 더 현실적으로 시험할 수 있다.
8. 전문가 블라인드 평가와 자동 채점기
모델 성능 평가는 데이터셋에 포함된 직업군과 같은 분야의 숙련 전문가들이 맡는다. 이 평가자들은 모델이 만든 산출물과 과제 작성자가 만든 인간 산출물을 어느 쪽이 AI인지 모른 채 비교하고, 비평과 순위를 제시한다. 이후 AI 산출물을 인간 산출물보다 ‘더 좋음’, ‘동등함’, ‘더 나쁨’으로 분류하는 방식이 사용된다. 과제 작성자는 직업별 세부 채점 루브릭도 만들었고, 이는 평가의 일관성과 투명성을 높이기 위한 장치로 설명된다. OpenAI는 인간 전문가 판단을 예측하는 자동 채점기도 만들었지만, 아직 전문가 평가만큼 신뢰할 수 없기 때문에 이를 대체 수단으로 쓰지는 않는다고 밝힌다.
9. 초기 결과와 한계
본문은 현재의 최상위 모델들이 이미 일부 업무에서 산업 전문가가 만든 산출물 품질에 접근하고 있다고 말한다. OpenAI는 GDPval 골드 세트 220개 과제에서 GPT-4o, o4-mini, OpenAI o3, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro, Grok 4 등 여러 모델의 산출물을 인간 산출물과 블라인드 비교했다고 설명한다. 평가에서는 모델 산출물이 인간 전문가 산출물보다 낫다고 평가된 경우와 동등하다고 평가된 경우를 기록했다. 다만 본문은 GDPval이 아직 초기 단계이며, 현재는 한 번에 답하는 one-shot 평가에 제한되어 있어 여러 차례 초안을 개선하거나 맥락을 쌓아가는 실제 업무 흐름을 충분히 담지 못한다고 명시한다.
🧾 핵심 주장 / 시사점
- GDPval의 핵심 의의는 AI 모델 평가의 초점을 시험형 문제 해결에서 실제 직업 산출물 품질 비교로 옮겼다는 데 있다.
- 평가 설계가 산업·직업·전문가 검토·블라인드 비교를 포함하기 때문에, 모델 성능 논의를 보다 경제적이고 업무 중심적인 근거 위에 올려놓으려는 시도로 볼 수 있다.
- 다만 현재 버전은 one-shot 과제에 한정되어 있어, 협업·반복 수정·장기 맥락 축적이 중요한 실제 지식노동 전체를 대표한다고 보기는 어렵다.
✅ 액션 아이템
- 우리 조직의 AI 평가 기준이 실제 업무 산출물 형식과 복잡성을 얼마나 반영하는지 점검한다.
- 문서·슬라이드·스프레드시트 등 핵심 업무 산출물을 기준으로 내부 평가 과제 후보를 정리한다.
- 자동 채점 결과와 현업 전문가 평가를 분리해 비교할 수 있는 블라인드 평가 절차를 설계한다.
❓ 열린 질문
- 현업 전문가가 만든 평가 과제는 모델 성능을 기존 학술형 벤치마크보다 얼마나 다르게 보여줄까?
- 9개 산업과 44개 직업 중심의 평가 구성이 다양한 지식노동 업무를 충분히 대표할 수 있을까?
- 자동 채점기는 전문가 블라인드 평가를 보완하는 수준을 넘어 어느 범위까지 신뢰할 수 있을까?