ElevenLabs'' Mati Staniszewski: How Voice Becomes the Interface for AI
Quick Summary
ElevenLabs의 Mati Staniszewski가 말하는 핵심은, Voice가 AI의 Interface가 되려면 단순한 음성 합성을 넘어 감정·인증·워크플로까지 포함한 오디오 플랫폼으로 진화해야 한다 는 점이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
ElevenLabs의 Mati Staniszewski가 말하는 핵심은, Voice가 AI의 Interface가 되려면 단순한 음성 합성을 넘어 감정·인증·워크플로까지 포함한 오디오 플랫폼으로 진화해야 한다는 점이다.
📌 핵심 요점
-
ElevenLabs의 문제의식은 폴란드 더빙 경험에서 출발했다. 여러 인물의 감정과 억양이 하나의 단조로운 목소리로 사라지는 경험이, 언어가 바뀌어도 원래의 감정과 뉘앙스를 살리는 음성 기술의 필요성으로 이어졌다.
-
오디오는 초기에는 텍스트·비전 AI보다 덜 주목받는 영역이었지만, ElevenLabs는 음성이 콘텐츠 접근성, 언어 장벽 해소, 로봇·휴머노이드와의 상호작용까지 확장될 핵심 인터페이스라고 봤다.
-
ElevenLabs는 텍스트 음성 변환에서 출발해 음성 인식, 더빙·현지화, 스트리밍 오디오, 음성 에이전트, 음악 생성까지 오디오 전체 스택으로 확장하고 있다.
-
음성 에이전트의 활용은 고객지원과 전화 ARS 대체를 넘어, 인바운드·아웃바운드 영업, 시민지원, 교육, 실시간 학습, 행정 서비스 접근성 개선으로 넓어지고 있다.
-
아직 남은 과제는 명확하다. 개인 인증, 워터마킹, 감정 이해, 반응 속도, 데이터 품질, 도메인별 품질 기준 등은 음성 AI가 널리 확산되기 전에 해결해야 할 핵심 변수로 제시된다.
🧩 배경과 문제 정의
- ElevenLabs의 문제의식은 공동창업자들이 폴란드에서 경험한 외국 콘텐츠 더빙 문화에서 출발한다.
- 폴란드에서는 여러 배우의 목소리와 감정, 억양이 하나의 단조로운 내레이션으로 대체되는 경우가 많았고, 그 과정에서 원작의 몰입감과 감정 전달이 손실됐다.
- ElevenLabs가 풀고자 한 핵심 문제는 “누구나 어떤 언어로든 원래의 목소리, 감정, 뉘앙스를 유지하며 말할 수 있게 하는 것”이다.
- 음성 기술은 더빙을 넘어 오디오북, 뉴스 청취, 고객지원, 시민 서비스, 교육 접근성, 로봇·휴머노이드와의 인터페이스로 확장된다.
- 이 영상의 중심 주장은 음성이 AI 시대의 중요한 사용자 인터페이스가 되며, 경쟁의 핵심도 모델 성능뿐 아니라 인증, 감정 표현, 워크플로 통합, 플랫폼 생태계로 넓어진다는 것이다.
🕒 시간순 섹션별 상세정리
1. 폴란드 더빙 경험에서 출발한 음성 문제의식 [00:02]
- ElevenLabs는 2022년에 본격적으로 시작됐지만, 공동창업자들은 고등학교 시절부터 알고 지낸 오랜 친구였다
- 두 사람은 폴란드에서 외국 영화를 볼 때 여러 등장인물의 목소리가 하나의 단조로운 내레이션으로 처리되는 경험을 공유했다
2. 오디오를 AI의 핵심 인터페이스로 본 초기 선택 [01:28]
- 창업자들은 더빙 문제를 넘어, 오디오가 사람과 AI를 잇는 핵심 인터페이스가 될 수 있다고 봤다
- 오디오북 부족, 뉴스 기사 청취, 언어 장벽 해소처럼 음성이 필요한 문제는 콘텐츠 전반에 넓게 존재했다
3. 원격 연구 조직과 조기 수익화 전략 [04:01]
- 초기 팀은 특정 지역에 모인 연구자들이 아니라, 공개된 작업물과 기술 역량을 기준으로 구성됐다
- GitHub, 연구 샘플, 온라인 작업물을 바탕으로 뛰어난 오디오 연구자를 찾고 원격으로 협업했다
4. 텍스트 음성 변환에서 오디오 전체 스택으로의 확장 [05:17]
- ElevenLabs의 출발점은 문맥을 이해하고 감정과 억양을 살리는 텍스트 음성 변환 모델이었다
- 핵심 차별점은 단순히 글자를 읽는 것이 아니라, 문장의 분위기와 감정, 대화 맥락에 맞는 음성을 만드는 데 있었다
5. 사람다운 음성과 감정 지능으로 확장되는 음성 AI [08:01]
- 초기 제품은 AI 음성이 웃음, 멈춤, 감정 표현까지 담아낼 수 있다는 점에서 주목받았다
- “웃을 수 있는 AI” 사례가 Hacker News에서 화제가 되며, 더 사람다운 음성 인터페이스의 가능성을 보여줬다
6. 고객지원 밖으로 넓어지는 음성 에이전트의 매출 활용 [10:14]
- 음성 에이전트의 대표적 활용처는 고객지원과 기존 전화 ARS 대체다
- 핵심 변화는 여기서 더 나아가 인바운드·아웃바운드 영업처럼 직접 매출을 만드는 업무로 확장된다는 점이다
7. 음성 AI가 시민지원과 교육 접근성을 바꾸는 사례 [12:00]
- 시민지원 영역에서는 세금 작성, 해외여행 정책 확인, 정부 서비스 이용처럼 반복적으로 발생하는 행정 정보 탐색이 주요 활용 사례가 된다
- 우크라이나 정부 사례에서는 전쟁 상황 속 시민들이 전화로 필요한 정보를 얻을 수 있도록 음성 에이전트 기반의 지원 채널을 제공했다
8. 작은 팀과 평평한 조직 구조가 AI 시대 운영 방식이 된다 [14:22]
- ElevenLabs는 400명 이상, 매출 4억 달러 이상 규모로 성장한 뒤에도 작은 팀 중심의 운영 방식을 유지한다
- 연구, 제품, 고투마켓, 운영, 채용 조직을 10명 미만 단위로 구성해 의사결정 속도와 실행력을 높인다
9. 비기술 팀에 기술 역량을 넣어 자동화와 판단 기준을 만든다 [16:01]
- AI 시대에는 엔지니어링 조직뿐 아니라 채용, 법무, 운영 같은 비기술 조직에도 기술 이해와 활용 역량이 필요해진다
- 채용팀은 스크래핑과 과거 성과 분석을 활용해 후보자 탐색과 리크루팅 전략을 더 정교하게 설계할 수 있다
10. 음성 에이전트 협상은 아직 초기 단계다 [17:40]
- 음성 에이전트가 실제 협상을 처음부터 끝까지 완결하는 사례는 아직 뚜렷하게 자리 잡지 않았다
- 현재는 가격 문의나 주문 정보 수집처럼 비교적 단순한 대화를 처리한 뒤, 필요한 경우 사람 팀으로 넘기는 단계에 가깝다
11. 음성은 AI 기기·로봇과 소통하는 핵심 인터페이스가 된다 [20:02]
- AI 기기와 로봇이 사람 주변에 더 많이 배치될수록, 음성은 가장 자연스럽고 직관적인 지시 방식이 된다
- 앞으로의 병목은 지능 자체보다, 사람이 그 지능과 얼마나 자연스럽게 소통할 수 있는지에서 생길 수 있다
12. 음성 에이전트 확산에는 인증·감정·데이터 품질 문제가 남아 있다 [21:04]
- 개인 음성 에이전트가 예약, 일정 전달, 의료 정보 처리 등을 대신하려면 높은 수준의 본인 인증 체계가 필요하다
- 실제 인간 음성, 동의 기반 합성 음성, 인증된 AI 음성을 구분할 수 있는 체계 역시 중요해진다
13. 오디오 모델의 방어력은 감정성과 도메인 특화에서 나온다 [24:15]
- speech-to-text 영역에서는 주로 인식 정확도와 기술적 성능이 핵심 경쟁 요소가 된다
- text-to-speech 영역에서는 단순한 정확도보다 감정 표현, 자연스러운 억양, 전달력이 품질을 크게 좌우한다
14. 모델은 스택의 일부가 되고 플랫폼·워크플로가 경쟁층이 된다 [25:20]
- 좋은 모델은 여전히 중요하지만, 많은 사용 사례에서 모델은 전체 제품 스택을 구성하는 한 요소가 된다
- 음성 에이전트 제품은 오디오 모델만으로 완성되지 않으며, 지식 기반, 전화 시스템, 외부 채널 연결까지 결합될 때 실제 워크플로로 작동한다
🧾 결론
-
이 영상에서 음성은 단순한 입출력 기능이 아니라, AI 지능을 실제 인간 경험과 연결하는 주요 접점으로 다뤄진다.
-
ElevenLabs의 방향성은 “좋은 목소리 생성”에 머물지 않고, 전사·번역·더빙·에이전트·평가·모니터링·워크플로까지 포함하는 오디오 플랫폼 구축에 가깝다.
-
음성 AI의 경쟁력은 모델 성능만으로 결정되지 않는다. 감정 표현, 도메인별 튜닝, 사용자 데이터, 실제 업무 흐름에 맞는 배치 능력이 함께 중요하다.
-
영상 속 주장 기준으로, 음성 에이전트는 고객지원보다 매출 창출·교육·공공 서비스 영역에서 더 큰 가능성을 가질 수 있다.
-
다만 매출 규모, 고객 사례의 실제 성과, 기술적 완성도, 데이터 주석 규모 등은 영상에서 제시된 주장으로 보아야 하며, 투자 판단에는 별도 검증이 필요하다.
📈 투자·시사 포인트
-
음성 AI 시장은 단순 TTS 도구보다 더빙, 로컬라이제이션, 콜센터, 영업, 교육, 공공 서비스, 로봇 인터페이스까지 이어지는 수평 확장성이 크다.
-
방어력은 범용 모델 자체보다 감정 표현 품질, 도메인별 데이터, 사용자 워크플로 통합, 평가·모니터링 체계에서 생길 가능성이 크다.
-
음성 에이전트가 실제 매출 업무에 쓰이려면 정확도뿐 아니라 말의 속도, 멈춤, 끼어들기, 신뢰감, 감정 대응 능력이 중요해진다.
-
인증과 워터마킹은 장기적으로 핵심 인프라가 될 수 있다. 실제 인간, 동의 기반 합성 음성, 인증된 AI를 구분하지 못하면 개인 비서형 음성 에이전트 확산에 제약이 생길 수 있다.
-
투자 관점에서 확인해야 할 항목은 실제 고객 유지율, 도메인별 매출 비중, 모델 원가와 마진, 데이터 확보 방식, 음성 에이전트의 성과 지표, 규제·보안 리스크다.
⚠️ 불확실하거나 확인이 필요한 부분
- ElevenLabs가 “400명 이상, 매출 4억 달러 이상” 규모라는 내용은 영상 속 언급 기반으로 보이며, 외부 재무자료나 공식 발표로 별도 검증이 필요하다.
- 우크라이나 정부, Deliveroo, Deutsche Telekom, MasterClass 사례는 영상에서 제시된 활용 사례로 정리했지만, 실제 도입 범위·성과·운영 방식은 별도 확인이 필요하다.
- “2만 개가 넘는 사용 가능 음성”이라는 수치는 ElevenLabs 플랫폼 현황에 대한 영상 속 주장으로 보이며, 현재 기준의 정확한 수량은 공식 자료 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- ElevenLabs의 실제 직원 수, 매출 규모, 플랫폼 음성 수 등 정량 정보는 공식 자료나 신뢰 가능한 외부 기사로 검증한다.
- Deliveroo, Deutsche Telekom, 우크라이나 정부, MasterClass 사례가 실제 고객 사례인지, 데모·파일럿·파트너십 사례인지 구분해 확인한다.
- 음성 에이전트 적용 영역을 고객지원, 영업, 공공서비스, 교육, 로봇 인터페이스로 나누어 후속 노트의 카테고리 구조를 만든다.
- 영상 속 주장과 외부 검증 사실을 분리해, 발행용 본문에서는 “영상에서는 ~라고 설명한다” 형태로 표현한다.
❓ 열린 질문
- ElevenLabs가 말하는 “voice as interface”는 단기적으로는 고객지원·영업 자동화에 더 가까운가, 아니면 장기적으로 로봇·휴머노이드 인터페이스까지 포괄하는 플랫폼 전략인가?
- 음성 에이전트가 사람의 감정 상태를 이해하고 대응한다고 할 때, 실제 프로덕션 환경에서 어떤 평가 기준과 안전장치가 필요한가?
- AI 음성과 실제 인간 음성을 구분하는 워터마크·인증 체계는 산업 표준으로 자리 잡을 수 있을까?