YouTubeTech Bridge·2026년 6월 30일·0

[한글자막] Spotify는 2천만 줄 넘는 코드에서 에이전트를 어떻게 운영할까요? Niklas Gustavsson 인터뷰 (w. Boris Cherny)

Quick Summary

Spotify의 2천만 줄 넘는 코드에서 에이전트를 운영하는 핵심은 모델 성능만이 아니라 Honk 같은 내부 플랫폼, 자동 검증 루프, 표준화된 코드베이스를 함께 구축하는 데 있다.

영상 보기

클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.

원본 열기

🖼️ 인포그래픽

[한글자막] Spotify는 2천만 줄 넘는 코드에서 에이전트를 어떻게 운영할까요? Niklas Gustavsson 인터뷰 (w. Boris Cherny) 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

[한글자막] Spotify는 2천만 줄 넘는 코드에서 에이전트를 어떻게 운영할까요? Niklas Gustavsson 인터뷰 (w. Boris Cherny) 내용을 설명하는 본문 이미지

💡 한 줄 결론

Spotify의 2천만 줄 넘는 코드에서 에이전트를 운영하는 핵심은 모델 성능만이 아니라 Honk 같은 내부 플랫폼, 자동 검증 루프, 표준화된 코드베이스를 함께 구축하는 데 있다.

📌 핵심 요점

  1. Spotify는 엔지니어 수보다 코드베이스가 훨씬 빠르게 커지면서, Java 업그레이드·라이브러리 교체·API 마이그레이션 같은 반복 유지보수 작업이 제품 아이디어 실행 속도를 막는 병목이 됐다.
  2. 초기에는 결정적 스크립트로 대규모 변경을 자동화했지만, 실제 코드의 호출 방식과 엣지 케이스가 너무 다양해지면서 LLM과 에이전트를 활용한 Honk 기반 워크플로로 발전했다.
  3. 2천만 줄이 넘는 대형 모노레포에서는 외부 지식보다 내부 코드 관례와 유사 구현을 찾아 따르는 능력이 중요하며, Claude는 이 부분에서 기대보다 강점을 보였다.
  4. 자동 PR과 에이전트 작업이 늘어날수록 핵심 병목은 코드 생성이 아니라 검증 루프이며, 테스트 자동화·CI·품질 규칙이 자동 머지와 빠른 배포의 안전장치가 된다.
  5. Spotify는 AI 도구의 효과를 PR 빈도 증가나 AI 작성 PR 비중 같은 생산성 지표로만 보지 않고, 배포·A/B 테스트·롤아웃·사용자 가치와 연결해 측정하려는 방향으로 이동하고 있다.

🧩 배경과 문제 정의

  • 이 영상은 IDE 안에서 개발자가 마지막 수정까지 직접 처리하던 방식이 에이전트 중심 워크플로로 이동하면서, 개인 개발 경험과 조직 운영 방식이 어떻게 바뀌는지를 다룬다.
  • Spotify는 엔지니어 수보다 코드베이스가 훨씬 빠르게 커지면서, 새로운 제품 아이디어를 실행하기보다 기존 코드 유지보수에 많은 역량이 묶이는 문제를 겪었다.
  • 수천 개 저장소와 2천만 줄이 넘는 모노레포 환경에서는 Java 업그레이드, 라이브러리 교체, API 마이그레이션 같은 반복 작업도 단순 스크립트만으로 처리하기 어렵다.
  • 특히 실제 코드는 호출 방식, 변수 상태, API 표면적, 팀별 소유권이 복잡하게 얽혀 있어 결정적 스크립트가 엣지 케이스에 쉽게 막히고, 이 지점에서 LLM과 에이전트 기반 접근이 새로운 운영 방식으로 부상한다.
  • Spotify의 Honk는 반복적인 코드 변경 자동화에서 출발해, Slack 요청 처리, 저장소 전반 작업 수행, CI 검증, 자동 PR 생성까지 포함하는 내부 에이전트 플랫폼으로 확장된다.
  • 핵심 문제는 단순히 “AI가 코드를 더 많이 쓰게 하는 것”이 아니라, 대규모 조직에서 더 빠른 변경과 더 안전한 검증, 더 짧은 아이디어 실험 루프를 동시에 달성하는 것이다.

🕒 시간순 섹션별 상세정리

1. IDE를 떠난 개발 경험과 개인적 전환점

  • 몇 달 전까지만 해도 연말에는 아무도 IDE를 쓰지 않을 것이라는 전망이 비현실적으로 보였지만, 실제로는 두 달 만에 IDE 없이 일하는 방식으로 바뀌었다 [00:10]
  • 화자는 30년 동안 소프트웨어 관련 일을 하면서도 보기 어려웠던 수준의 변화가 매우 짧은 기간에 발생했다고 보여준다 [00:31]
  • Spotify 내부 사용자들도 외부 개발자들과 비슷하게 이 전환을 충격적으로 받아들였고, 개인 개발 경험 자체가 빠르게 재정의되고 있다 [00:46]

2. 초기 LLM 실험에서 Opus 4.5 이후 실사용 단계로 전환

  • LLM이 등장한 초기부터 코드 변경 자동화를 시도했지만, 초반에는 기대한 수준의 결과를 얻기 어려웠다 [01:48]
  • 이후 LLM과 judge를 조합하고 반복 실험을 거치면서, 대규모 코드 변경 자동화가 실제로 가능할 수 있다는 가능성이 보이기 시작했다 [02:03]
  • 초기 GPT 시절의 결과는 모든 문제를 해결할 수준은 아니었지만, 앞으로 대규모 코드 변경 자동화가 어떤 방향으로 갈지 보여주는 신호로 받아들여졌다 [02:09]

3. 터미널·tmux·워크트리 기반의 다중 에이전트 작업 방식

  • 현재 작업 방식은 화려한 전용 환경보다는 비교적 기본적인 터미널 중심 구조에 가깝다 [03:14]
  • 여러 tmux 세션 안에서 Claude 세션과 일반 터미널을 함께 띄우고, 백그라운드에서 여러 에이전트를 동시에 돌리는 방식으로 일한다 [03:29]
  • 보통 5~10개의 터미널 탭과 여러 pane을 사용하며, diff 확인용 터미널과 Claude 세션을 매칭해 여러 worktree에서 병렬 작업을 진행한다 [03:44]

4. 2천만 줄 모노레포에서 Claude가 보인 강점

  • 대형 모노레포와 에이전트를 함께 쓰는 방식에는 초기 우려가 있었고, 기존 도구에서는 인덱싱 문제 같은 한계가 이미 나타난 바 있다 [04:18]
  • Spotify의 백엔드 모노레포는 2천만 줄이 넘는 규모지만, Claude는 저장소 안의 다른 코드를 참고해 문제 해결에 필요한 패턴과 아이디어를 찾아내는 데 강점을 보인다 [04:35]
  • 이 강점은 코드베이스가 클수록 오히려 더 많은 예시와 패턴을 제공할 수 있다는 점에서, 대규모 조직의 에이전트 활용 가능성을 보여준다 [04:50]

5. 유지보수 폭증과 fleet management의 탄생

  • 5~6년 전 Spotify의 코드베이스는 엔지니어 수보다 약 7배 빠르게 커졌고, 유지해야 할 코드가 계속 늘어나면서 제품 아이디어 실행 속도가 유지보수 부담에 묶이기 시작했다 [05:27]
  • Java 버전 업그레이드, 라이브러리 업데이트, API 교체처럼 지루하지만 필수적인 작업을 최대한 자동화해야 하는 필요성이 커졌다 [05:55]
  • 그 결과 수천 개 저장소 전체에 변형을 적용하고 관리하기 위한 fleet management 인프라가 만들어졌다 [06:10]

6. 결정적 스크립트의 한계와 Honk V2의 에이전트 아키텍처

  • 초기 자동화는 결정적 스크립트에 의존했지만, 실제 코드는 API 표면적이 넓어 메서드 하나를 바꾸는 작업도 쉽게 복잡해졌다 [07:04]
  • 호출 방식, 변수 상태 추적, 다양한 예외 상황을 처리하다 보면 단순 마이그레이션 스크립트도 수천 줄의 엣지 케이스 처리로 커질 수 있었다 [07:19]
  • 초기 LLM 적용은 코드를 그대로 모델 앞에 넣고 한 번에 변경을 시도하는 방식이었기 때문에 잘 작동하지 않았다 [07:59]
  • 이후 LLM judge, 문제 분해, 반복적인 내부 실험을 거치면서 코드 변경 자동화 흐름이 Honk로 통합됐다 [08:14]

7. 자동 PR 시대의 핵심 병목은 검증 루프다

  • 폐쇄 루프 개발에서는 에이전트가 작업을 받아 분해하고 확장하며, 사람 개입 없이 많은 일을 처리하게 된다 [12:01]
  • 이 환경에서 검증은 단순 보조 장치가 아니라 자동 변경을 안전하게 운영하기 위한 가장 중요한 안전장치가 된다 [12:16]
  • Spotify의 코드베이스는 수천 개 컴포넌트로 나뉘어 있고, 각 컴포넌트는 특정 팀이 설계·구현·운영까지 책임지는 구조다 [12:38]
  • 기존에는 팀이 자신이 소유한 컴포넌트의 변경에 직접 관여할 수 있었지만, 자동 PR과 에이전트 기반 변경이 늘어나면 검증 체계가 그 역할을 더 많이 떠안게 된다 [12:53]

8. 속도와 품질은 상충보다 자동화 투자에 가깝다

  • 더 빠른 개발을 원할수록 품질 관행이 사람 머릿속의 암묵지로 남아 있어서는 안 된다 [13:52]
  • 테스트, 규칙, 스킬, MCP 같은 실행 가능한 인프라 안에 품질 기준이 더 명확히 들어가야 에이전트가 안전하게 속도를 낼 수 있다 [14:07]
  • 엔지니어링 생산성 향상은 더 오래 일하는 방식이 아니라, 인프라를 계속 개선해 반복 작업과 검증을 자동화하는 방식에 가깝다 [14:17]
  • 자동화된 품질 체계는 속도를 희생하는 장치가 아니라, 오히려 더 빠르게 움직이기 위한 핵심 조건으로 드러난다 [14:32]

9. 빠른 배포는 아이디어 검증 속도를 높인다

  • Spotify는 오래전부터 개발자의 아이디어가 최대한 빨리 프로덕션에 도달하는 구조를 최적화해 왔다 [15:30]
  • 과거에는 아이디어가 사용자에게 도달하기까지 몇 주나 몇 달이 걸렸지만, 지금은 그 흐름이 대략 한 시간 수준까지 줄어든 것으로 드러난다 [15:45]
  • 내부 사용자나 외부 사용자에게서 더 빠르게 피드백을 얻을수록 아이디어를 더 자주 검증할 수 있다 [15:57]
  • 이 반복 속도는 제품 품질을 높이고, 사용자가 실제로 체감하는 가치가 전달되는 속도도 함께 끌어올린다 [16:12]

10. AI 도구의 ROI는 PR 지표에서 사용자 가치 연결로 이동한다

  • Spotify 엔지니어링 조직은 약 2,900명 규모이며, AI 도구의 효과는 PR 빈도 75% 이상 개선과 약 73%의 AI 작성 PR 비중 같은 생산성 지표로 나타난다 [16:38]
  • 이런 지표는 AI 도구가 개발 흐름에 실제로 영향을 주고 있음을 보여주는 신호로 드러난다 [16:53]
  • 하지만 단순히 PR이 많아졌다는 생산성 지표만으로는 충분하지 않다 [17:23]
  • PR과 배포를 계획된 작업 항목, A/B 테스트, 롤아웃, 최종 사용자 가치로 연결해 측정하는 체계가 필요해진다 [17:38]

11. 표준화와 일관성은 인간과 에이전트 모두의 생산성을 높인다

  • 테스트 자동화와 검증 같은 기반 역량 외에도, 더 일관된 코드베이스와 정렬된 도구·프레임워크는 에이전트 활용에서 중요한 투자 영역이 된다 [19:33]
  • 코드와 도구가 표준화되어 있을수록 에이전트가 예측 가능한 방식으로 변경을 수행하고 검증하기 쉬워진다 [19:48]
  • 원래 인간 개발자의 생산성을 높이기 위해 해온 표준화 투자는 에이전트에도 그대로 긍정적인 영향을 준다 [19:58]
  • 코드가 비슷한 패턴을 가질수록 에이전트는 저장소 안의 다른 코드 조각에서 힌트를 얻고, 현재 문제에 적용할 가능성이 높아진다 [20:13]

12. 엔지니어 역할은 구현 시간에서 문제 선택과 프로토타이핑으로 넓어진다

  • 코딩의 문제 해결 자체를 좋아하던 개발자에게도 에이전트 전환은 개인적인 불안을 만들 수 있다 [21:10]
  • 하지만 영상에서는 문제를 푸는 방식이 바뀌었을 뿐, 문제 해결의 즐거움 자체는 계속 남을 수 있다고 보여준다 [21:25]
  • 여러 에이전트가 백그라운드에서 일하는 환경에서는 개발자와 도구의 상호작용 방식이 1~2년 전과 크게 달라진다 [21:49]
  • 직접 구현하는 시간보다 어떤 문제를 풀지 정하고, 여러 도구와 에이전트를 조율하는 비중이 더 커진다 [22:04]

13. 실제 앱과 백엔드에서 프로토타입을 빠르게 만드는 인프라

  • 실제 앱 코드는 매우 복잡하지만, Spotify 내부 팀들은 그 안에서도 에이전트 기반 시도가 작동할 수 있다는 가능성을 확인하기 시작했다 [24:00]
  • 이는 단순한 장난감 예제가 아니라 실제 제품 코드와 백엔드 환경에서도 에이전트 활용을 실험하고 있다는 의미로 압축된다 [24:15]
  • 몇 달 전부터 엔드투엔드 프로토타입 제작을 단순화하는 인프라가 구축됐다 [24:30]
  • 모바일 앱과 백엔드 양쪽에서 빠르게 시작할 수 있는 방식이 마련되면서, 아이디어를 실제 동작하는 프로토타입으로 옮기는 시간이 줄어들고 있다 [24:45]

14. 프로토타입 생산 주체 확대와 아이디어 검증 시간 단축

  • 프로토타입 제작 주체는 특정 엔지니어링 직군에만 제한되지 않고, 공동 CEO까지 내부 앱스토어에 프로토타입을 올릴 정도로 넓어졌다 [25:25]
  • 이는 에이전트와 내부 인프라가 아이디어 실험의 진입장벽을 낮추고 있음을 보여준다 [25:40]
  • 여러 시니어 임원도 오랫동안 갖고 있던 아이디어를 직접 프로토타입으로 만들고 있다 [25:55]
  • 별도 엔지니어링 팀이 다른 우선순위에 묶여 있어도 실험이 지연되지 않기 때문에, 조직 전체의 아이디어 검증 속도가 빨라지는 방향으로 마무리된다 [26:10]

🧾 결론

  • 이 인터뷰의 핵심은 “에이전트가 코드를 얼마나 잘 쓰는가”보다 “조직이 에이전트가 만든 변경을 얼마나 안전하게 흡수할 수 있는가”에 가깝다.
  • Spotify의 사례에서 Honk는 단순 코드 변경 도구가 아니라 Slack 요청, 저장소 작업, CI 검증, 내부 도구 연동을 포함하는 에이전트 운영 플랫폼으로 확장됐다.
  • 대규모 코드베이스에서 에이전트 활용의 전제 조건은 테스트 자동화, 일관된 프레임워크, 표준화된 패턴, 빠른 배포 체계처럼 기존 엔지니어링 기본기의 강화다.
  • 엔지니어의 역할은 직접 구현 시간을 줄이는 방향으로 바뀌지만, 문제 선택, 검증 설계, 도구 조율, 프로토타이핑 같은 상위 판단의 중요성은 더 커진다.
  • 검증 필요: 영상의 수치와 사례는 인터뷰 발화에 근거한 요약이며, Spotify 내부 전체 시스템의 현재 상태나 장기 ROI를 외부에서 독립 검증한 자료로 단정하기는 어렵다.

📈 투자·시사 포인트

  • 기업용 AI 코딩 도구의 가치는 단순한 코드 생성 능력보다 대규모 저장소 이해, 내부 도구 연동, CI·테스트 자동화, 정책 기반 검증까지 포함하는 운영 체계에서 더 크게 드러난다.
  • 대형 소프트웨어 조직은 에이전트 도입 전에 코드 표준화와 테스트 커버리지, 배포 자동화, 컴포넌트 책임 구조를 정비해야 실제 생산성 개선을 안정적으로 얻을 가능성이 높다.
  • AI 도구 ROI 평가는 PR 수 증가 같은 단기 생산성 지표에서 벗어나, 배포 속도, 실험 횟수, 사용자 피드백 회수, 실제 제품 가치로 이어지는지를 함께 봐야 한다.
  • Spotify 사례는 에이전트 도입이 인력 대체 논리만이 아니라 유지보수 부채 해소, 마이그레이션 가속, 프로토타입 실험 비용 감소로도 연결될 수 있음을 보여준다.
  • 투자 관점에서는 모델 제공사뿐 아니라 엔터프라이즈 개발 플랫폼, 코드베이스 분석, 자동 검증, 내부 도구 오케스트레이션을 지원하는 인프라 영역의 중요성이 커질 수 있다.

⚠️ 불확실하거나 확인이 필요한 부분

  • “IDE 없이 일하는 방식으로 바뀌었다”는 표현은 인터뷰이의 개인 워크플로인지, Spotify 내부의 넓은 조직적 변화인지 범위 확인이 필요하다.
  • Spotify의 “2천만 줄 이상 모노레포”, “약 2,900명 엔지니어”, “PR 빈도 75% 이상 개선”, “AI 작성 PR 약 73%” 같은 수치는 영상 내 발언 기준이며, 공식 자료나 최신 내부 기준과 일치하는지 별도 검증이 필요하다.
  • Honk가 Slack 요청, 저장소 전반 작업, CI 검증까지 처리하는 내부 에이전트 플랫폼으로 확장됐다는 설명은 기능 범위와 실제 운영 성숙도, 사람 승인 단계가 어디에 남아 있는지 추가 확인이 필요하다.
  • 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
  • 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
  • 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.

✅ 액션 아이템

  • 우리 조직의 반복 마이그레이션 작업을 Java 업그레이드, 라이브러리 교체, API 변경처럼 유형별로 분류하고 자동화 우선순위를 정한다.
  • 에이전트가 수정한 코드에 대해 테스트, CI, lint, 리뷰 규칙, 롤백 기준을 포함한 폐쇄 루프 검증 체계를 먼저 설계한다.
  • 대형 코드베이스에서 에이전트가 참고할 수 있도록 표준 패턴, 공통 프레임워크, 예제 구현, 코드 규칙을 명시적으로 정리한다.
  • AI 도구 성과를 PR 수나 작성 비중만이 아니라 배포, 실험, 사용자 피드백, 실제 제품 가치까지 연결해 측정하는 지표를 만든다.

❓ 열린 질문

  • 에이전트가 대규모 코드 변경을 수행할 때 최종 책임과 승인 권한은 플랫폼 팀, 코드 소유 팀, 또는 중앙 생산성 조직 중 어디에 두는 것이 적절한가?
  • 결정적 스크립트와 LLM 기반 에이전트는 어떤 기준으로 나누어 적용해야 하며, 엣지 케이스가 많은 변경에서 비용 대비 효과는 어디서 갈리는가?
  • 에이전트 도입으로 개발 속도가 빨라질 때 품질 규칙을 사람의 암묵지에서 실행 가능한 인프라로 옮기려면 어떤 순서가 가장 현실적인가?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.