ArticleBenedict Evans·2025년 6월 9일·0

AI metrics — Benedict Evans

Quick Summary

생성형 AI는 빠르게 커지고 있지만, 지금 쓰이는 사용자 수·토큰 수·성장 비교 지표만으로는 실제 제품 가치와 사용 방식, 시장 변화를 제대로 설명하기 어렵다는 글입니다.

AI metrics — Benedict Evans 관련 대표 이미지

🖼️ 인포그래픽

AI metrics — Benedict Evans 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

AI metrics — Benedict Evans 내용을 설명하는 본문 이미지

💡 한 줄 요약

생성형 AI는 빠르게 커지고 있지만, 지금 쓰이는 사용자 수·토큰 수·성장 비교 지표만으로는 실제 제품 가치와 사용 방식, 시장 변화를 제대로 설명하기 어렵다는 글입니다.

📌 핵심 요약

  • 저자는 초기 소비자 인터넷, 소셜, 스마트폰 시대에도 무엇을 측정해야 하는지 불명확했고 기업들은 자신에게 유리한 지표를 골라 시장을 재정의하려 했다고 설명합니다.
  • 생성형 AI에서도 주간 활성 사용자, ‘AI를 써봤는가’ 같은 질문은 정의와 깊이의 문제가 커서 실제 사용 강도나 비즈니스 전환을 충분히 보여주지 못합니다.
  • 구글과 마이크로소프트가 제시하는 생성 토큰 수는 성장 신호이기는 하지만, 사용자 증가·요청당 사용량·모델 효율·에이전트와 미디어 생성·AI 개요 노출 같은 여러 요인이 섞여 해석이 어렵습니다.
  • 잘 운영되는 초고속 성장 기업들은 표면 지표가 아니라 제품 작동을 설명하는 세밀한 2차·3차 지표와 피드백 신호를 보지만, 대형 언어 모델 제공자들이 그런 신호를 어떻게 활용할 수 있는지는 아직 불분명합니다.
  • 결국 적절한 AI 지표는 돈과 시간으로 수렴하겠지만, 앞으로 LLM이 독립 챗봇으로 쓰일지 다른 서비스 안에 내장될지에 따라 측정 방식 자체가 크게 달라질 수 있습니다.

🧩 주요 포인트

  1. 저자는 초기 소비자 인터넷, 소셜, 스마트폰 시대에도 무엇을 측정해야 하는지 불명확했고 기업들은 자신에게 유리한 지표를 골라 시장을 재정의하려 했다고 설명합니다.
  2. 생성형 AI에서도 주간 활성 사용자, ‘AI를 써봤는가’ 같은 질문은 정의와 깊이의 문제가 커서 실제 사용 강도나 비즈니스 전환을 충분히 보여주지 못합니다.
  3. 구글과 마이크로소프트가 제시하는 생성 토큰 수는 성장 신호이기는 하지만, 사용자 증가·요청당 사용량·모델 효율·에이전트와 미디어 생성·AI 개요 노출 같은 여러 요인이 섞여 해석이 어렵습니다.
  4. 잘 운영되는 초고속 성장 기업들은 표면 지표가 아니라 제품 작동을 설명하는 세밀한 2차·3차 지표와 피드백 신호를 보지만, 대형 언어 모델 제공자들이 그런 신호를 어떻게 활용할 수 있는지는 아직 불분명합니다.
  5. 결국 적절한 AI 지표는 돈과 시간으로 수렴하겠지만, 앞으로 LLM이 독립 챗봇으로 쓰일지 다른 서비스 안에 내장될지에 따라 측정 방식 자체가 크게 달라질 수 있습니다.

🧠 상세 정리

1. 인터넷 시대부터 반복된 지표 혼란

저자는 소비자 인터넷 초창기부터 기술 시장의 핵심 지표가 명확하지 않았다고 출발합니다. 1995년 메리 미커의 첫 인터넷 트렌드 보고서에는 인터넷 호스트, 전 세계 피시 사용자, 백본 트래픽, AOL 가입자 같은 서로 다른 지표가 나란히 등장했습니다. 웹이 커질 때는 서버 파일 전송 횟수인 ‘히트’가 중요하게 보였지만, 내비게이션 버튼의 이미지가 늘어나도 히트가 늘어나는 식이라 실제 사용 가치와는 거리가 있었습니다. 소셜 서비스는 등록 사용자에서 월간 활성 사용자, 일간 활성 사용자와 그 비율로 옮겨갔고, 스마트폰 시장에서는 판매량·설치 기반·사용량·평균 판매가·사용자당 매출의 관계를 두고 혼란이 있었습니다. 이 흐름은 기술이 새로 등장할 때마다 무엇을 재야 하는지가 뒤늦게 정리된다는 점을 보여줍니다.

2. 기업이 고르는 지표와 정의의 문제

글은 모든 기업과 기관이 자신에게 유리하거나 시장을 원하는 방식으로 규정하는 지표를 고른다는 점도 강조합니다. 애플은 앱스토어에 있는 앱의 수를 자주 말했고, 구글은 안드로이드의 누적 활성화 수를 내세웠습니다. 저자는 미국 연방거래위원회가 인스타그램과 틱톡의 경쟁 관계를 논할 때도 어떤 지표를 잡느냐에 따라 결론이 달라진다고 봅니다. 체류 시간, 시청한 영상 수, 현실 친구와의 연결 중 무엇을 기준으로 삼느냐에 따라 같은 시장을 다르게 볼 수 있기 때문입니다. 따라서 지표는 중립적인 숫자처럼 보이지만, 실제로는 시장의 경계와 경쟁 구도를 해석하는 언어가 됩니다.

3. 생성형 AI 사용 지표의 취약성

저자는 생성형 AI에서도 같은 질문이 다시 나타난다고 말합니다. 오픈AI는 때때로 주간 활성 사용자 같은 둥근 숫자를 공개하지만, 저자는 주 1회 사용하는 사람이 삶을 바꾸고 있다고 보기는 어렵기 때문에 이 지표가 약하다고 지적합니다. 그래도 주간 활성 사용자는 구체적인 수치인 반면, ‘AI를 사용하느냐’ 또는 ‘지난 1년 동안 AI를 써봤느냐’ 같은 설문은 훨씬 모호합니다. 여기에는 챗지피티, 클로드, 제미나이 같은 서비스만 뜻하는지, 아니면 머신러닝 기반의 스냅챗 필터나 알렉사까지 포함하는지의 정의 문제가 있습니다. 기업이 AI를 쓴다고 답해도 송장 처리 시스템을 대형 언어 모델 중심으로 재구축한다는 뜻인지, 마케팅 담당자가 가끔 미드저니로 시안을 만든다는 뜻인지 알 수 없습니다.

4. 생성 토큰 수가 말해주는 것과 숨기는 것

구글과 마이크로소프트가 제시한 생성 토큰 수 차트는 무언가가 빠르게 증가하고 있음을 보여주지만, 저자는 이를 1996년의 대역폭 성장 보고와 비슷하다고 봅니다. 사용자와 사용량이 늘고 있는 것은 맞지만, 동시에 모델은 더 효율적으로 변했고 에이전트나 미디어 생성은 하나의 요청에도 더 많은 토큰을 사용합니다. 구글이 AI 개요를 광범위하게 보여주는 것도 전체 토큰 수를 키우는 요인이 됩니다. 유튜브 대역폭 증가를 봤다면 사용자가 늘어난 것인지, 사용자당 조회가 늘어난 것인지, 영상이 길어진 것인지, 완주율이나 화질이 높아진 것인지 따져야 하듯이 토큰 수도 단일한 의미로 읽기 어렵습니다. 특히 오늘날 상당 부분이 기업용 API 사용이라면, 이는 클라우드 도입을 AWS와 애저의 대역폭 전송량으로만 이해하려는 것과 비슷하다는 것이 저자의 비유입니다.

5. 좋은 제품 지표와 피드백 루프의 차이

저자는 일간 활성 사용자의 체류 시간 같은 설문 데이터가 더 유용해 보일 수 있지만, 시간 흐름에 따른 자료가 없거나 모바일에서 제3자가 수집하기 어렵다는 한계가 있다고 말합니다. 반대로 메타나 구글 같은 잘 운영되는 초고속 성장 기업 내부에서는 제품이 실제로 어떻게 작동하는지 보여주는 매우 구체적이고 엄격하게 정의된 2차·3차 지표가 존재합니다. 구글은 다른 이들이 중요하게 보지 않던 응답 시간을 최적화했고, 사용자가 사이트를 빨리 떠나는 것을 오히려 목표로 삼았습니다. 검색어를 바꿔 다시 입력하거나 세 번째 링크를 클릭한 뒤 돌아오는지 여부 같은 행동은 제품을 개선하는 신호가 되며, 이는 강력한 네트워크 효과를 만듭니다. 그러나 LLM 제공자들이 이런 종류의 신호를 실제로 활용할 수 있는지, 사용자가 다시 묻지 않았을 때 그것이 정답 때문인지 오답을 믿었기 때문인지 포기했기 때문인지 판단하기는 아직 어렵습니다.

6. 성장 비교의 맥락과 앞으로의 핵심 질문

저자는 생성형 AI의 사용자 증가를 인터넷이나 스마트폰과 비교하는 차트에는 맥락이 필요하다고 경고합니다. 초기 매킨토시와 아이폰은 비싼 기기였고, 인터넷과 모바일 네트워크 확산에는 통신 인프라 구축이 필요했지만, 생성형 AI는 사용자 경험상 웹사이트나 앱에 가깝습니다. 오늘날에는 이미 수십억 명이 온라인에 있기 때문에 과거보다 훨씬 빠르고 크게 확산되는 것이 자연스럽고, 엔비디아의 빠른 매출 증가도 수십 년간 만들어진 계약 제조 기반 위에 올라탄 결과로 설명됩니다. 저자는 불공정한 비교가 유용할 수는 있지만, 그것이 불공정하다는 사실을 알아야 한다고 말합니다. 마지막으로 그는 지표가 결국 돈과 시간으로 수렴하겠지만, LLM이 범용 챗봇으로 주로 쓰일지 아니면 다른 서비스 안에 내장될지에 따라 측정 자체가 달라질 것이라고 봅니다. 만약 내장형으로 확산된다면 LLM 사용량을 재는 일은 머신러닝이나 SQL 사용 횟수를 묻는 것처럼 큰 의미가 없을 수 있습니다.

🧾 핵심 주장 / 시사점

  • AI 지표를 해석할 때는 숫자의 크기보다 그 숫자가 어떤 사용자 행동, 제품 구조, 비용 구조를 섞어 담고 있는지를 먼저 분리해야 합니다.
  • ‘AI 사용 여부’ 같은 넓은 질문은 시장 침투율을 크게 보이게 만들 수 있지만, 실제 업무 재설계나 반복 사용, 체류 시간 같은 변화의 깊이는 거의 설명하지 못합니다.
  • LLM이 독립 서비스로 남는지, 검색·전자상거래·스마트폰·업무 도구 안에 보이지 않게 들어가는지에 따라 앞으로 의미 있는 지표는 완전히 달라질 수 있습니다.

✅ 액션 아이템

  • 과거 인터넷·소셜·스마트폰처럼 유리한 지표만 선택해 시장을 재정의한 경험을 피하기 위해, 지표 목적과 허용범위를 먼저 합의하고 측정 기준을 고정한다.
  • 주간 활성 사용자·AI 사용 여부 같은 1차 지표를 보완해 실제 사용 강도, 전환 결과, 모델 효율을 함께 반영한 2차·3차 지표 체계를 정비한다.
  • 토큰 성장 신호를 해석할 때 사용자 증가, 요청당 사용량, 에이전트 동작, 미디어 생성, AI 개요 노출 효과를 분리해 계산하고 피드백 신호와 함께 정기 점검한다.

❓ 열린 질문

  • 실제 사용 강도와 수익성 기여도를 함께 포착하려면 어떤 2차·3차 지표 조합이 우선순위가 될 것인가?
  • 독립형 챗봇형 LLM과 타 서비스 내장형 LLM에서 공통적으로 해석 가능한 성과 지표는 어디까지 설정할 수 있을 것인가?
  • 토큰 성장 수치의 혼재 요인을 분리할 때 사용자 증가와 요청당 사용량의 가중치를 어떤 방식으로 정할 것인가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.