YouTubeSequoia Capital·2026년 5월 6일·0

ElevenLabs'' Mati Staniszewski: How Voice Becomes the Interface for AI

Quick Summary

ElevenLabs의 Mati Staniszewski가 말하는 핵심은, Voice가 AI의 Interface가 되려면 단순한 음성 합성을 넘어 감정·인증·워크플로까지 포함한 오디오 플랫폼으로 진화해야 한다 는 점이다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

ElevenLabs'' Mati Staniszewski: How Voice Becomes the Interface for AI 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

ElevenLabs'' Mati Staniszewski: How Voice Becomes the Interface for AI 내용을 설명하는 본문 이미지

💡 한 줄 결론

ElevenLabs의 Mati Staniszewski가 말하는 핵심은, Voice가 AI의 Interface가 되려면 단순한 음성 합성을 넘어 감정·인증·워크플로까지 포함한 오디오 플랫폼으로 진화해야 한다는 점이다.

📌 핵심 요점

  1. ElevenLabs의 문제의식은 폴란드 더빙 경험에서 출발했다. 여러 인물의 감정과 억양이 하나의 단조로운 목소리로 사라지는 경험이, 언어가 바뀌어도 원래의 감정과 뉘앙스를 살리는 음성 기술의 필요성으로 이어졌다.

  2. 오디오는 초기에는 텍스트·비전 AI보다 덜 주목받는 영역이었지만, ElevenLabs는 음성이 콘텐츠 접근성, 언어 장벽 해소, 로봇·휴머노이드와의 상호작용까지 확장될 핵심 인터페이스라고 봤다.

  3. ElevenLabs는 텍스트 음성 변환에서 출발해 음성 인식, 더빙·현지화, 스트리밍 오디오, 음성 에이전트, 음악 생성까지 오디오 전체 스택으로 확장하고 있다.

  4. 음성 에이전트의 활용은 고객지원과 전화 ARS 대체를 넘어, 인바운드·아웃바운드 영업, 시민지원, 교육, 실시간 학습, 행정 서비스 접근성 개선으로 넓어지고 있다.

  5. 아직 남은 과제는 명확하다. 개인 인증, 워터마킹, 감정 이해, 반응 속도, 데이터 품질, 도메인별 품질 기준 등은 음성 AI가 널리 확산되기 전에 해결해야 할 핵심 변수로 제시된다.

🧩 배경과 문제 정의

  • ElevenLabs의 문제의식은 공동창업자들이 폴란드에서 경험한 외국 콘텐츠 더빙 문화에서 출발한다.
  • 폴란드에서는 여러 배우의 목소리와 감정, 억양이 하나의 단조로운 내레이션으로 대체되는 경우가 많았고, 그 과정에서 원작의 몰입감과 감정 전달이 손실됐다.
  • ElevenLabs가 풀고자 한 핵심 문제는 “누구나 어떤 언어로든 원래의 목소리, 감정, 뉘앙스를 유지하며 말할 수 있게 하는 것”이다.
  • 음성 기술은 더빙을 넘어 오디오북, 뉴스 청취, 고객지원, 시민 서비스, 교육 접근성, 로봇·휴머노이드와의 인터페이스로 확장된다.
  • 이 영상의 중심 주장은 음성이 AI 시대의 중요한 사용자 인터페이스가 되며, 경쟁의 핵심도 모델 성능뿐 아니라 인증, 감정 표현, 워크플로 통합, 플랫폼 생태계로 넓어진다는 것이다.

🕒 시간순 섹션별 상세정리

1. 폴란드 더빙 경험에서 출발한 음성 문제의식 [00:02]

  • ElevenLabs는 2022년에 본격적으로 시작됐지만, 공동창업자들은 고등학교 시절부터 알고 지낸 오랜 친구였다
  • 두 사람은 폴란드에서 외국 영화를 볼 때 여러 등장인물의 목소리가 하나의 단조로운 내레이션으로 처리되는 경험을 공유했다

2. 오디오를 AI의 핵심 인터페이스로 본 초기 선택 [01:28]

  • 창업자들은 더빙 문제를 넘어, 오디오가 사람과 AI를 잇는 핵심 인터페이스가 될 수 있다고 봤다
  • 오디오북 부족, 뉴스 기사 청취, 언어 장벽 해소처럼 음성이 필요한 문제는 콘텐츠 전반에 넓게 존재했다

3. 원격 연구 조직과 조기 수익화 전략 [04:01]

  • 초기 팀은 특정 지역에 모인 연구자들이 아니라, 공개된 작업물과 기술 역량을 기준으로 구성됐다
  • GitHub, 연구 샘플, 온라인 작업물을 바탕으로 뛰어난 오디오 연구자를 찾고 원격으로 협업했다

4. 텍스트 음성 변환에서 오디오 전체 스택으로의 확장 [05:17]

  • ElevenLabs의 출발점은 문맥을 이해하고 감정과 억양을 살리는 텍스트 음성 변환 모델이었다
  • 핵심 차별점은 단순히 글자를 읽는 것이 아니라, 문장의 분위기와 감정, 대화 맥락에 맞는 음성을 만드는 데 있었다

5. 사람다운 음성과 감정 지능으로 확장되는 음성 AI [08:01]

  • 초기 제품은 AI 음성이 웃음, 멈춤, 감정 표현까지 담아낼 수 있다는 점에서 주목받았다
  • “웃을 수 있는 AI” 사례가 Hacker News에서 화제가 되며, 더 사람다운 음성 인터페이스의 가능성을 보여줬다

6. 고객지원 밖으로 넓어지는 음성 에이전트의 매출 활용 [10:14]

  • 음성 에이전트의 대표적 활용처는 고객지원과 기존 전화 ARS 대체다
  • 핵심 변화는 여기서 더 나아가 인바운드·아웃바운드 영업처럼 직접 매출을 만드는 업무로 확장된다는 점이다

7. 음성 AI가 시민지원과 교육 접근성을 바꾸는 사례 [12:00]

  • 시민지원 영역에서는 세금 작성, 해외여행 정책 확인, 정부 서비스 이용처럼 반복적으로 발생하는 행정 정보 탐색이 주요 활용 사례가 된다
  • 우크라이나 정부 사례에서는 전쟁 상황 속 시민들이 전화로 필요한 정보를 얻을 수 있도록 음성 에이전트 기반의 지원 채널을 제공했다

8. 작은 팀과 평평한 조직 구조가 AI 시대 운영 방식이 된다 [14:22]

  • ElevenLabs는 400명 이상, 매출 4억 달러 이상 규모로 성장한 뒤에도 작은 팀 중심의 운영 방식을 유지한다
  • 연구, 제품, 고투마켓, 운영, 채용 조직을 10명 미만 단위로 구성해 의사결정 속도와 실행력을 높인다

9. 비기술 팀에 기술 역량을 넣어 자동화와 판단 기준을 만든다 [16:01]

  • AI 시대에는 엔지니어링 조직뿐 아니라 채용, 법무, 운영 같은 비기술 조직에도 기술 이해와 활용 역량이 필요해진다
  • 채용팀은 스크래핑과 과거 성과 분석을 활용해 후보자 탐색과 리크루팅 전략을 더 정교하게 설계할 수 있다

10. 음성 에이전트 협상은 아직 초기 단계다 [17:40]

  • 음성 에이전트가 실제 협상을 처음부터 끝까지 완결하는 사례는 아직 뚜렷하게 자리 잡지 않았다
  • 현재는 가격 문의나 주문 정보 수집처럼 비교적 단순한 대화를 처리한 뒤, 필요한 경우 사람 팀으로 넘기는 단계에 가깝다

11. 음성은 AI 기기·로봇과 소통하는 핵심 인터페이스가 된다 [20:02]

  • AI 기기와 로봇이 사람 주변에 더 많이 배치될수록, 음성은 가장 자연스럽고 직관적인 지시 방식이 된다
  • 앞으로의 병목은 지능 자체보다, 사람이 그 지능과 얼마나 자연스럽게 소통할 수 있는지에서 생길 수 있다

12. 음성 에이전트 확산에는 인증·감정·데이터 품질 문제가 남아 있다 [21:04]

  • 개인 음성 에이전트가 예약, 일정 전달, 의료 정보 처리 등을 대신하려면 높은 수준의 본인 인증 체계가 필요하다
  • 실제 인간 음성, 동의 기반 합성 음성, 인증된 AI 음성을 구분할 수 있는 체계 역시 중요해진다

13. 오디오 모델의 방어력은 감정성과 도메인 특화에서 나온다 [24:15]

  • speech-to-text 영역에서는 주로 인식 정확도와 기술적 성능이 핵심 경쟁 요소가 된다
  • text-to-speech 영역에서는 단순한 정확도보다 감정 표현, 자연스러운 억양, 전달력이 품질을 크게 좌우한다

14. 모델은 스택의 일부가 되고 플랫폼·워크플로가 경쟁층이 된다 [25:20]

  • 좋은 모델은 여전히 중요하지만, 많은 사용 사례에서 모델은 전체 제품 스택을 구성하는 한 요소가 된다
  • 음성 에이전트 제품은 오디오 모델만으로 완성되지 않으며, 지식 기반, 전화 시스템, 외부 채널 연결까지 결합될 때 실제 워크플로로 작동한다

🧾 결론

  • 이 영상에서 음성은 단순한 입출력 기능이 아니라, AI 지능을 실제 인간 경험과 연결하는 주요 접점으로 다뤄진다.

  • ElevenLabs의 방향성은 “좋은 목소리 생성”에 머물지 않고, 전사·번역·더빙·에이전트·평가·모니터링·워크플로까지 포함하는 오디오 플랫폼 구축에 가깝다.

  • 음성 AI의 경쟁력은 모델 성능만으로 결정되지 않는다. 감정 표현, 도메인별 튜닝, 사용자 데이터, 실제 업무 흐름에 맞는 배치 능력이 함께 중요하다.

  • 영상 속 주장 기준으로, 음성 에이전트는 고객지원보다 매출 창출·교육·공공 서비스 영역에서 더 큰 가능성을 가질 수 있다.

  • 다만 매출 규모, 고객 사례의 실제 성과, 기술적 완성도, 데이터 주석 규모 등은 영상에서 제시된 주장으로 보아야 하며, 투자 판단에는 별도 검증이 필요하다.

📈 투자·시사 포인트

  • 음성 AI 시장은 단순 TTS 도구보다 더빙, 로컬라이제이션, 콜센터, 영업, 교육, 공공 서비스, 로봇 인터페이스까지 이어지는 수평 확장성이 크다.

  • 방어력은 범용 모델 자체보다 감정 표현 품질, 도메인별 데이터, 사용자 워크플로 통합, 평가·모니터링 체계에서 생길 가능성이 크다.

  • 음성 에이전트가 실제 매출 업무에 쓰이려면 정확도뿐 아니라 말의 속도, 멈춤, 끼어들기, 신뢰감, 감정 대응 능력이 중요해진다.

  • 인증과 워터마킹은 장기적으로 핵심 인프라가 될 수 있다. 실제 인간, 동의 기반 합성 음성, 인증된 AI를 구분하지 못하면 개인 비서형 음성 에이전트 확산에 제약이 생길 수 있다.

  • 투자 관점에서 확인해야 할 항목은 실제 고객 유지율, 도메인별 매출 비중, 모델 원가와 마진, 데이터 확보 방식, 음성 에이전트의 성과 지표, 규제·보안 리스크다.

⚠️ 불확실하거나 확인이 필요한 부분

  • ElevenLabs가 “400명 이상, 매출 4억 달러 이상” 규모라는 내용은 영상 속 언급 기반으로 보이며, 외부 재무자료나 공식 발표로 별도 검증이 필요하다.
  • 우크라이나 정부, Deliveroo, Deutsche Telekom, MasterClass 사례는 영상에서 제시된 활용 사례로 정리했지만, 실제 도입 범위·성과·운영 방식은 별도 확인이 필요하다.
  • “2만 개가 넘는 사용 가능 음성”이라는 수치는 ElevenLabs 플랫폼 현황에 대한 영상 속 주장으로 보이며, 현재 기준의 정확한 수량은 공식 자료 확인이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • ElevenLabs의 실제 직원 수, 매출 규모, 플랫폼 음성 수 등 정량 정보는 공식 자료나 신뢰 가능한 외부 기사로 검증한다.
  • Deliveroo, Deutsche Telekom, 우크라이나 정부, MasterClass 사례가 실제 고객 사례인지, 데모·파일럿·파트너십 사례인지 구분해 확인한다.
  • 음성 에이전트 적용 영역을 고객지원, 영업, 공공서비스, 교육, 로봇 인터페이스로 나누어 후속 노트의 카테고리 구조를 만든다.
  • 영상 속 주장과 외부 검증 사실을 분리해, 발행용 본문에서는 “영상에서는 ~라고 설명한다” 형태로 표현한다.

❓ 열린 질문

  • ElevenLabs가 말하는 “voice as interface”는 단기적으로는 고객지원·영업 자동화에 더 가까운가, 아니면 장기적으로 로봇·휴머노이드 인터페이스까지 포괄하는 플랫폼 전략인가?
  • 음성 에이전트가 사람의 감정 상태를 이해하고 대응한다고 할 때, 실제 프로덕션 환경에서 어떤 평가 기준과 안전장치가 필요한가?
  • AI 음성과 실제 인간 음성을 구분하는 워터마크·인증 체계는 산업 표준으로 자리 잡을 수 있을까?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.