ArticleSharon Goldman·2026년 6월 9일·0

The AI industry spent years chasing bigger models. Now it’s chasing efficiency

Quick Summary

AI 업계는 더 큰 모델을 만드는 경쟁에서 벗어나, 대규모 배포가 가능한 비용·전력·학습 효율을 확보하는 방향으로 초점을 옮기고 있다.

The AI industry spent years chasing bigger models. Now it’s chasing efficiency 관련 대표 이미지

🖼️ 인포그래픽

The AI industry spent years chasing bigger models. Now it’s chasing efficiency 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

The AI industry spent years chasing bigger models. Now it’s chasing efficiency 내용을 설명하는 본문 이미지

💡 한 줄 요약

AI 업계는 더 큰 모델을 만드는 경쟁에서 벗어나, 대규모 배포가 가능한 비용·전력·학습 효율을 확보하는 방향으로 초점을 옮기고 있다.

📌 핵심 요약

  • AI 연구자와 인프라 기업들은 수년간 더 큰 모델을 추구해 왔지만, 이제는 그 모델들을 실제 환경에서 감당 가능한 비용으로 운영하는 문제가 핵심 과제로 떠올랐다.
  • Adaption의 공동창업자이자 CEO인 사라 후커는 현재 많은 AI 모델이 한 번 학습된 뒤 지식과 능력이 고정되는 ‘단일체적’ 구조에 머물러 있어 큰 비효율을 만든다고 지적했다.
  • 후커는 AI 모델이 새로운 정보와 사용자 경험을 지속적으로 반영하며 진화해야 하며, 모든 문제에 거대한 모델을 적용하는 방식은 특히 대량 처리 업무에서 비합리적이라고 설명했다.
  • 기업들이 AI 에이전트를 대규모로 배포하고 있지만, 에이전트가 실수에서 배우지 못하면 같은 오류를 반복하며 컴퓨팅, API 호출, 인프라 비용을 계속 발생시킨다는 문제가 제기됐다.
  • SambaNova CEO 로드리고 량은 대형 모델이 당분간 사라지지는 않을 것이라면서도, 현재의 과제는 전력 소모와 비용이 큰 모델을 더 빠르고 효율적으로 추론할 수 있는 하드웨어로 운영 가능하게 만드는 것이라고 말했다.

🧩 주요 포인트

  1. AI 연구자와 인프라 기업들은 수년간 더 큰 모델을 추구해 왔지만, 이제는 그 모델들을 실제 환경에서 감당 가능한 비용으로 운영하는 문제가 핵심 과제로 떠올랐다.
  2. Adaption의 공동창업자이자 CEO인 사라 후커는 현재 많은 AI 모델이 한 번 학습된 뒤 지식과 능력이 고정되는 ‘단일체적’ 구조에 머물러 있어 큰 비효율을 만든다고 지적했다.
  3. 후커는 AI 모델이 새로운 정보와 사용자 경험을 지속적으로 반영하며 진화해야 하며, 모든 문제에 거대한 모델을 적용하는 방식은 특히 대량 처리 업무에서 비합리적이라고 설명했다.
  4. 기업들이 AI 에이전트를 대규모로 배포하고 있지만, 에이전트가 실수에서 배우지 못하면 같은 오류를 반복하며 컴퓨팅, API 호출, 인프라 비용을 계속 발생시킨다는 문제가 제기됐다.
  5. SambaNova CEO 로드리고 량은 대형 모델이 당분간 사라지지는 않을 것이라면서도, 현재의 과제는 전력 소모와 비용이 큰 모델을 더 빠르고 효율적으로 추론할 수 있는 하드웨어로 운영 가능하게 만드는 것이라고 말했다.

🧠 상세 정리

1. 더 큰 모델 경쟁에서 효율 경쟁으로 이동

기사의 출발점은 AI 업계가 지난 몇 년간 더 큰 모델을 만드는 데 집중해 왔다는 점이다. 그러나 Fortune Brainstorm Tech 2026에서 제기된 핵심 문제는 이제 크기 자체가 아니라, 그런 시스템을 실제로 대규모 배포할 만큼 저렴하게 만들 수 있는가였다. 연구자와 인프라 제공업체 모두 비용, 전력, 운영 부담을 줄이는 방향으로 관심을 옮기고 있다. 이는 AI가 실험실이나 데모 수준을 넘어 기업 현장에 넓게 배포되면서 경제성이 더 큰 제약으로 부상했기 때문이다.

2. 고정된 모델이 만드는 구조적 비효율

Adaption의 공동창업자이자 CEO인 사라 후커는 현재의 많은 AI를 ‘monolithic’, 즉 시간 속에 고정된 시스템으로 묘사했다. 한 번 학습이 끝난 모델은 지식과 능력이 사실상 고정되며, 세상이 바뀌거나 사용자를 통해 유용한 정보를 얻더라도 그 내용이 자동으로 모델 안에 통합되지 않는다. 후커는 모델이 진화할 수 있어야 하며, 그렇지 않으면 거대한 비효율이 생긴다고 말했다. 이 지적은 단순히 모델 성능의 문제가 아니라, 운영 과정에서 변화와 학습을 반영하지 못하는 구조의 문제를 겨냥한다.

3. 대형 모델은 유지되지만 모든 문제의 답은 아니다

SambaNova CEO 로드리고 량은 당분간 규모가 여전히 중요하며 가장 큰 모델들이 곧 사라지지는 않을 것이라고 봤다. 동시에 그는 더 효율적인 모델이 들어올 여지도 충분하다고 말했다. 현재 고객들은 모델을 확장하는 비용, 에너지 소모가 큰 인프라, 충분한 AI 역량 확보라는 문제를 동시에 겪고 있다. 따라서 논의의 초점은 대형 모델을 완전히 대체하는 것이 아니라, 어떤 문제에 어떤 크기와 방식의 모델을 적용해야 하는지 더 정교하게 판단하는 쪽으로 이동하고 있다.

4. 모든 작업에 거대 모델을 쓰는 방식의 한계

후커는 AI 모델 크기의 증가 곡선을 바꿔야 할 긴급한 변곡점에 와 있다고 말했다. 그는 사람들이 직관적으로도 모든 문제에 같은 모델을 적용해서는 안 된다는 점을 이해한다고 설명했다. 특히 대량 처리 업무처럼 비교적 쉬운 문제가 많으며, 후커는 아마도 문제의 90%는 매우 쉽다고 표현했다. 이런 작업에 거대한 모델을 계속 투입하는 것은 비용과 자원을 낭비하는 방식이며, 앞으로의 AI 시스템은 문제의 난도와 성격에 맞게 더 효율적으로 작동해야 한다는 논지다.

5. 학습하지 않는 에이전트가 반복 비용을 만든다

후커는 미래의 AI 시스템이 고정된 모델을 반복 호출하는 데 머물지 않고, 새로운 정보에 지속적으로 적응하고 행동을 빠르게 바꿔야 한다고 주장했다. 오늘날 기업들은 에이전트를 대규모로 배포하고 있지만, 많은 에이전트가 자신의 실수에서 배우지 못하는 문제가 있다. 그 결과 기업은 같은 오류에 대해 컴퓨팅, API 호출, 인프라 비용을 반복해서 지불하게 된다. 기사에서 말하는 효율성은 단순히 더 싼 모델을 쓰는 문제가 아니라, 시스템이 경험을 축적해 반복 낭비를 줄일 수 있는가와 연결된다.

6. 하드웨어 효율과 추론 비용 절감의 과제

량은 모델 개발자들이 더 유능하고 효율적인 AI 시스템을 만드는 데 집중하는 동안, 업계가 당장 해결해야 할 문제는 현재의 거대한 모델을 경제적으로 운영하는 것이라고 말했다. 그는 조 단위 파라미터 모델이 여전히 너무 비싸고 전력 소모가 크다고 지적했다. SambaNova의 전략은 대형 모델 워크로드에 맞춘 하드웨어를 통해 더 빠른 추론과 낮은 전력 소비를 제공하는 데 있다. 량은 같은 모델에서 Nvidia Blackwell GPU보다 2~3배 더 나은 성능을 얻고 있다고 주장하며, 이런 방식이 대규모 운영에서 비용을 낮추는 길이라고 설명했다.

🧾 핵심 주장 / 시사점

  • AI 효율성 논의는 모델 크기 축소만이 아니라, 모델이 새로운 정보와 사용자 경험을 반영해 반복 비용을 줄일 수 있는 구조로 바뀌어야 한다는 문제의식까지 포함한다.
  • 기업의 AI 비용 증가는 단순한 사용량 증가 때문만이 아니라, 에이전트가 같은 실수를 반복하고 고정된 모델을 계속 호출하는 운영 방식에서도 발생한다.
  • 대형 모델은 계속 중요하지만, 실제 배포 단계에서는 문제 난도에 맞는 모델 선택, 추론 하드웨어 효율, 전력 소비 절감이 경쟁력의 핵심 축으로 부상하고 있다.

✅ 액션 아이템

  • 대규모 배포 환경에서 모델 운영 시 비용, 전력, 추론 지연을 함께 추적하는 성능 지표 프레임을 수립한다.
  • 사라 후커가 지적한 단일체적 구조의 비효율을 줄이기 위해 사용자 경험 반영형 지속 학습 루틴을 정의한다.
  • 기업 에이전트의 반복 실수가 유발하는 컴퓨팅·API·인프라 비용을 업무 유형별로 분해해 점검한다.

❓ 열린 질문

  • 모든 문제에 거대한 모델을 투입하는 기준을 어떤 부하·정확도 임계점으로 나누어 소형 모델 적용 여부를 판단할 것인가?
  • 학습이 고정된 모델을 대체할 때 실시간 정보 반영이 성능과 비용에 미치는 효과를 어떤 기간·군집 단위로 측정할 것인가?
  • 전력 소모와 비용 부담을 줄이기 위해 하드웨어 최적화를 진행할 때 어떤 성능·운영 조건에서 대형 모델 유지가 정당화되는가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.