Advancing voice intelligence with new models in the API

🖼️ 인포그래픽

Advancing voice intelligence with new models in the API 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI는 Realtime API에 GPT‑Realtime‑2, GPT‑Realtime‑Translate, GPT‑Realtime‑Whisper를 도입해 실시간 음성 대화, 번역, 전사를 더 자연스럽고 실행 가능한 인터페이스로 확장한다고 발표했다.

📌 핵심 요약

OpenAI는 개발자가 더 자연스럽고 지능적인 음성 앱을 만들 수 있도록 세 가지 새 오디오 모델을 API에 추가했다.
GPT‑Realtime‑2는 실시간 음성 상호작용에서 문맥을 유지하고, 요청 변경이나 끼어들기를 처리하며, 도구 호출을 통해 실제 작업을 수행하도록 설계됐다.
GPT‑Realtime‑Translate는 70개 이상의 입력 언어와 13개 출력 언어를 지원해 각 사용자가 선호 언어로 말하고 실시간 번역과 전사를 받을 수 있게 한다.
GPT‑Realtime‑Whisper는 낮은 지연시간의 스트리밍 전사 모델로, 회의 자막, 실시간 노트, 고객지원·의료·영업 등 업무 흐름에 즉시 활용될 수 있다.
Realtime API는 유해 사용 방지를 위한 세이프가드와 정책을 포함하며, 세 모델은 각각 토큰 또는 분 단위 가격으로 Realtime API에서 제공된다.

🧩 주요 포인트

OpenAI는 개발자가 더 자연스럽고 지능적인 음성 앱을 만들 수 있도록 세 가지 새 오디오 모델을 API에 추가했다.
GPT‑Realtime‑2는 실시간 음성 상호작용에서 문맥을 유지하고, 요청 변경이나 끼어들기를 처리하며, 도구 호출을 통해 실제 작업을 수행하도록 설계됐다.
GPT‑Realtime‑Translate는 70개 이상의 입력 언어와 13개 출력 언어를 지원해 각 사용자가 선호 언어로 말하고 실시간 번역과 전사를 받을 수 있게 한다.
GPT‑Realtime‑Whisper는 낮은 지연시간의 스트리밍 전사 모델로, 회의 자막, 실시간 노트, 고객지원·의료·영업 등 업무 흐름에 즉시 활용될 수 있다.
Realtime API는 유해 사용 방지를 위한 세이프가드와 정책을 포함하며, 세 모델은 각각 토큰 또는 분 단위 가격으로 Realtime API에서 제공된다.

🧠 상세 정리

1. 새 오디오 모델의 목적과 문제의식

OpenAI는 API에 세 가지 오디오 모델을 도입하며 개발자가 새로운 유형의 음성 앱을 만들 수 있다고 설명한다. 핵심 목표는 음성 경험을 더 자연스럽게 만들고, 더 지능적으로 응답하며, 대화가 진행되는 동안 실시간으로 행동을 수행하게 하는 것이다. 원문은 음성이 운전 중 도움 요청, 공항에서 여행 일정 변경, 선호 언어로 고객지원 받기, 타이핑 없이 작업 진행하기처럼 소프트웨어 사용의 자연스러운 방식이 되고 있다고 전제한다. 하지만 단순히 응답이 빠르거나 목소리가 자연스러운 것만으로는 충분하지 않다고 강조한다. 실제로 유용한 음성 에이전트는 사용자의 의미를 이해하고, 문맥을 추적하며, 요청 변경을 복구하고, 대화 중 도구를 사용하며, 상황에 맞는 방식으로 응답해야 한다.

2. 음성 인터페이스가 제품 사용 방식으로 확장되는 흐름

원문은 음성이 사람과 제품 사이의 인터페이스로 자리 잡고 있으며, 개발자들이 음성 AI에서 몇 가지 새로운 패턴을 중심으로 제품을 만들고 있다고 설명한다. 세부 패턴이 본문에 완전히 열거되지는 않지만, 예시로 Priceline이 여행자가 전체 여행을 음성으로 관리하는 미래를 준비하고 있다는 사례가 제시된다. 사용자는 대화형으로 항공편과 호텔을 검색하고, 항공 지연 후 호텔 예약을 조정하거나, TSA 대기 시간 같은 실시간 업데이트를 받을 수 있다. 또한 여행지에 도착한 뒤에는 대화를 번역하는 기능도 함께 연결될 수 있다. 이 사례는 음성 모델이 단순 질의응답을 넘어 검색, 변경, 업데이트, 번역이 결합된 연속적 제품 경험으로 확장될 수 있음을 보여준다.

3. GPT‑Realtime‑2: 추론하고 행동하는 실시간 음성 모델

GPT‑Realtime‑2는 실시간 음성 상호작용을 위해 만들어진 모델로, 대화를 멈추지 않으면서 요청을 추론하고 도구를 호출하며 수정이나 끼어들기를 처리하도록 설계됐다. 원문은 이 모델이 순간의 맥락에 맞는 응답을 제공한다는 점을 강조한다. 성능 근거로 GPT‑Realtime‑2 high가 Big Bench Audio에서 GPT‑Realtime‑1.5보다 오디오 지능 점수가 15.2% 높았고, xhigh는 Audio MultiChallenge에서 지시 따르기 점수가 13.8% 높았다고 제시한다. Big Bench Audio는 오디오 입력을 지원하는 언어 모델의 어려운 추론 능력을 평가하고, Audio MultiChallenge는 다중 턴 음성 대화에서 지시 수행, 문맥 통합, 자기 일관성, 자연스러운 발화 수정 처리를 평가한다. 즉 이 모델의 개선점은 단순 음성 품질보다 실제 음성 에이전트 운영에 필요한 추론, 문맥 관리, 제어 능력에 맞춰 설명된다.

4. 실제 적용 사례와 기업 평가

원문은 GPT‑Realtime‑2의 사용 사례를 설명하기 위해 소규모 커피숍 사업 아이디어에 대한 전략적 사전 부검과 최소 검증 버전을 요청하는 예시 음성 질의를 제시한다. 이는 모델이 단순 답변이 아니라 사업 리스크를 구조화하고, 실패 가능성을 분석하며, 더 작은 실험 설계를 제안하는 방식의 복합적 추론을 수행할 수 있음을 보여주려는 사례다. 초기 테스트에서 기업들은 고객과 직원이 자연스러운 대화로 일을 처리하도록 돕는 음성 에이전트 구축에 GPT‑Realtime‑2를 사용했다고 한다. Zillow의 Josh Weisberg는 복잡한 음성 상호작용에서 지능과 도구 호출 신뢰성이 두드러졌다고 평가했다. 또한 가장 어려운 적대적 벤치마크에서 프롬프트 최적화 후 통화 성공률이 69%에서 95%로 올라 26포인트 개선됐고, Fair Housing 준수에서도 더 견고해 프로덕션 음성에 적합하다고 언급했다.

5. GPT‑Realtime‑Translate: 실시간 다국어 음성 경험

GPT‑Realtime‑Translate는 각 사용자가 선호하는 언어로 말하고, 대화가 실시간으로 번역되며, 동시에 실시간 전사를 읽을 수 있는 다국어 음성 경험을 만들도록 제공된다. 원문에 따르면 이 모델은 70개 이상의 입력 언어와 13개 출력 언어를 지원한다. 활용 영역으로는 고객지원, 국경을 넘는 영업, 교육, 이벤트, 미디어, 글로벌 이용자를 대상으로 하는 크리에이터 플랫폼이 제시된다. 개발자 관점에서 실시간 번역은 화자의 속도를 따라가면서도 의미를 보존해야 하며, 사람들이 자연스럽게 말하거나 문맥을 바꾸거나 지역 발음과 전문 용어를 사용할 때도 견뎌야 한다. Deutsche Telekom은 낮은 지연시간과 더 강한 유창성이 다국어 음성 상호작용을 더 자연스럽게 만들 수 있는지 테스트 중이며, Vimeo는 제품 교육 영상을 재생하는 동안 실시간 번역해 글로벌 고객이 별도 제작본을 기다리지 않고 업데이트를 들을 수 있는 사례를 보여준다.

6. GPT‑Realtime‑Whisper, 안전장치, 가격과 시작 방법

GPT‑Realtime‑Whisper는 낮은 지연시간의 스트리밍 음성-텍스트 변환 모델로, 사람이 말하는 동안 오디오를 전사해 라이브 제품이 더 빠르고 자연스럽게 반응하도록 한다. 원문은 실시간 자막, 회의 노트, 대화 진행 중 요약, 지속적으로 사용자를 이해해야 하는 음성 에이전트, 고객지원·의료·영업·채용 같은 대량 음성 업무 후속 처리에 활용될 수 있다고 설명한다. 안전 측면에서 Realtime API는 오용 방지를 위한 여러 층의 완화책을 포함하며, 세션에 활성 분류기를 적용해 유해 콘텐츠 지침 위반이 감지되는 대화는 중단될 수 있다. 개발자는 Agents SDK를 통해 추가 가드레일을 붙일 수 있고, 정책은 스팸·기만·기타 유해 목적의 출력 재사용이나 배포를 금지한다. 가격은 GPT‑Realtime‑2가 오디오 입력 100만 토큰당 32달러, 캐시 입력 0.40달러, 오디오 출력 100만 토큰당 64달러이며, Translate는 분당 0.034달러, Whisper는 분당 0.017달러로 Realtime API에서 제공된다.

🧾 핵심 주장 / 시사점

이 발표의 핵심은 음성 AI를 ‘말을 알아듣고 답하는 기능’에서 ‘문맥을 유지하며 도구를 써서 일을 처리하는 인터페이스’로 끌어올리려는 방향성이다.
OpenAI는 각 모델을 하나의 범용 음성 기능으로 묶기보다 실시간 대화, 실시간 번역, 저지연 전사라는 제품 구현 단위로 나누어 개발자 활용 범위를 명확히 제시했다.
기업 사례와 벤치마크는 음성 모델의 경쟁력이 음색이나 응답 속도만이 아니라 도구 호출 신뢰성, 규정 준수, 문맥 관리, 자연 발화 수정 처리 같은 운영 품질에 달려 있음을 보여준다.