[한글자막] Spotify는 2천만 줄 넘는 코드에서 에이전트를 어떻게 운영할까요? Niklas Gustavsson 인터뷰 (w. Boris Cherny)
Quick Summary
Spotify의 2천만 줄 넘는 코드에서 에이전트를 운영하는 핵심은 모델 성능만이 아니라 Honk 같은 내부 플랫폼, 자동 검증 루프, 표준화된 코드베이스를 함께 구축하는 데 있다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Spotify의 2천만 줄 넘는 코드에서 에이전트를 운영하는 핵심은 모델 성능만이 아니라 Honk 같은 내부 플랫폼, 자동 검증 루프, 표준화된 코드베이스를 함께 구축하는 데 있다.
📌 핵심 요점
- Spotify는 엔지니어 수보다 코드베이스가 훨씬 빠르게 커지면서, Java 업그레이드·라이브러리 교체·API 마이그레이션 같은 반복 유지보수 작업이 제품 아이디어 실행 속도를 막는 병목이 됐다.
- 초기에는 결정적 스크립트로 대규모 변경을 자동화했지만, 실제 코드의 호출 방식과 엣지 케이스가 너무 다양해지면서 LLM과 에이전트를 활용한 Honk 기반 워크플로로 발전했다.
- 2천만 줄이 넘는 대형 모노레포에서는 외부 지식보다 내부 코드 관례와 유사 구현을 찾아 따르는 능력이 중요하며, Claude는 이 부분에서 기대보다 강점을 보였다.
- 자동 PR과 에이전트 작업이 늘어날수록 핵심 병목은 코드 생성이 아니라 검증 루프이며, 테스트 자동화·CI·품질 규칙이 자동 머지와 빠른 배포의 안전장치가 된다.
- Spotify는 AI 도구의 효과를 PR 빈도 증가나 AI 작성 PR 비중 같은 생산성 지표로만 보지 않고, 배포·A/B 테스트·롤아웃·사용자 가치와 연결해 측정하려는 방향으로 이동하고 있다.
🧩 배경과 문제 정의
- 이 영상은 IDE 안에서 개발자가 마지막 수정까지 직접 처리하던 방식이 에이전트 중심 워크플로로 이동하면서, 개인 개발 경험과 조직 운영 방식이 어떻게 바뀌는지를 다룬다.
- Spotify는 엔지니어 수보다 코드베이스가 훨씬 빠르게 커지면서, 새로운 제품 아이디어를 실행하기보다 기존 코드 유지보수에 많은 역량이 묶이는 문제를 겪었다.
- 수천 개 저장소와 2천만 줄이 넘는 모노레포 환경에서는 Java 업그레이드, 라이브러리 교체, API 마이그레이션 같은 반복 작업도 단순 스크립트만으로 처리하기 어렵다.
- 특히 실제 코드는 호출 방식, 변수 상태, API 표면적, 팀별 소유권이 복잡하게 얽혀 있어 결정적 스크립트가 엣지 케이스에 쉽게 막히고, 이 지점에서 LLM과 에이전트 기반 접근이 새로운 운영 방식으로 부상한다.
- Spotify의 Honk는 반복적인 코드 변경 자동화에서 출발해, Slack 요청 처리, 저장소 전반 작업 수행, CI 검증, 자동 PR 생성까지 포함하는 내부 에이전트 플랫폼으로 확장된다.
- 핵심 문제는 단순히 “AI가 코드를 더 많이 쓰게 하는 것”이 아니라, 대규모 조직에서 더 빠른 변경과 더 안전한 검증, 더 짧은 아이디어 실험 루프를 동시에 달성하는 것이다.
🕒 시간순 섹션별 상세정리
1. IDE를 떠난 개발 경험과 개인적 전환점
- 몇 달 전까지만 해도 연말에는 아무도 IDE를 쓰지 않을 것이라는 전망이 비현실적으로 보였지만, 실제로는 두 달 만에 IDE 없이 일하는 방식으로 바뀌었다 [00:10]
- 화자는 30년 동안 소프트웨어 관련 일을 하면서도 보기 어려웠던 수준의 변화가 매우 짧은 기간에 발생했다고 보여준다 [00:31]
- Spotify 내부 사용자들도 외부 개발자들과 비슷하게 이 전환을 충격적으로 받아들였고, 개인 개발 경험 자체가 빠르게 재정의되고 있다 [00:46]
2. 초기 LLM 실험에서 Opus 4.5 이후 실사용 단계로 전환
- LLM이 등장한 초기부터 코드 변경 자동화를 시도했지만, 초반에는 기대한 수준의 결과를 얻기 어려웠다 [01:48]
- 이후 LLM과 judge를 조합하고 반복 실험을 거치면서, 대규모 코드 변경 자동화가 실제로 가능할 수 있다는 가능성이 보이기 시작했다 [02:03]
- 초기 GPT 시절의 결과는 모든 문제를 해결할 수준은 아니었지만, 앞으로 대규모 코드 변경 자동화가 어떤 방향으로 갈지 보여주는 신호로 받아들여졌다 [02:09]
3. 터미널·tmux·워크트리 기반의 다중 에이전트 작업 방식
- 현재 작업 방식은 화려한 전용 환경보다는 비교적 기본적인 터미널 중심 구조에 가깝다 [03:14]
- 여러 tmux 세션 안에서 Claude 세션과 일반 터미널을 함께 띄우고, 백그라운드에서 여러 에이전트를 동시에 돌리는 방식으로 일한다 [03:29]
- 보통 5~10개의 터미널 탭과 여러 pane을 사용하며, diff 확인용 터미널과 Claude 세션을 매칭해 여러 worktree에서 병렬 작업을 진행한다 [03:44]
4. 2천만 줄 모노레포에서 Claude가 보인 강점
- 대형 모노레포와 에이전트를 함께 쓰는 방식에는 초기 우려가 있었고, 기존 도구에서는 인덱싱 문제 같은 한계가 이미 나타난 바 있다 [04:18]
- Spotify의 백엔드 모노레포는 2천만 줄이 넘는 규모지만, Claude는 저장소 안의 다른 코드를 참고해 문제 해결에 필요한 패턴과 아이디어를 찾아내는 데 강점을 보인다 [04:35]
- 이 강점은 코드베이스가 클수록 오히려 더 많은 예시와 패턴을 제공할 수 있다는 점에서, 대규모 조직의 에이전트 활용 가능성을 보여준다 [04:50]
5. 유지보수 폭증과 fleet management의 탄생
- 5~6년 전 Spotify의 코드베이스는 엔지니어 수보다 약 7배 빠르게 커졌고, 유지해야 할 코드가 계속 늘어나면서 제품 아이디어 실행 속도가 유지보수 부담에 묶이기 시작했다 [05:27]
- Java 버전 업그레이드, 라이브러리 업데이트, API 교체처럼 지루하지만 필수적인 작업을 최대한 자동화해야 하는 필요성이 커졌다 [05:55]
- 그 결과 수천 개 저장소 전체에 변형을 적용하고 관리하기 위한 fleet management 인프라가 만들어졌다 [06:10]
6. 결정적 스크립트의 한계와 Honk V2의 에이전트 아키텍처
- 초기 자동화는 결정적 스크립트에 의존했지만, 실제 코드는 API 표면적이 넓어 메서드 하나를 바꾸는 작업도 쉽게 복잡해졌다 [07:04]
- 호출 방식, 변수 상태 추적, 다양한 예외 상황을 처리하다 보면 단순 마이그레이션 스크립트도 수천 줄의 엣지 케이스 처리로 커질 수 있었다 [07:19]
- 초기 LLM 적용은 코드를 그대로 모델 앞에 넣고 한 번에 변경을 시도하는 방식이었기 때문에 잘 작동하지 않았다 [07:59]
- 이후 LLM judge, 문제 분해, 반복적인 내부 실험을 거치면서 코드 변경 자동화 흐름이 Honk로 통합됐다 [08:14]
7. 자동 PR 시대의 핵심 병목은 검증 루프다
- 폐쇄 루프 개발에서는 에이전트가 작업을 받아 분해하고 확장하며, 사람 개입 없이 많은 일을 처리하게 된다 [12:01]
- 이 환경에서 검증은 단순 보조 장치가 아니라 자동 변경을 안전하게 운영하기 위한 가장 중요한 안전장치가 된다 [12:16]
- Spotify의 코드베이스는 수천 개 컴포넌트로 나뉘어 있고, 각 컴포넌트는 특정 팀이 설계·구현·운영까지 책임지는 구조다 [12:38]
- 기존에는 팀이 자신이 소유한 컴포넌트의 변경에 직접 관여할 수 있었지만, 자동 PR과 에이전트 기반 변경이 늘어나면 검증 체계가 그 역할을 더 많이 떠안게 된다 [12:53]
8. 속도와 품질은 상충보다 자동화 투자에 가깝다
- 더 빠른 개발을 원할수록 품질 관행이 사람 머릿속의 암묵지로 남아 있어서는 안 된다 [13:52]
- 테스트, 규칙, 스킬, MCP 같은 실행 가능한 인프라 안에 품질 기준이 더 명확히 들어가야 에이전트가 안전하게 속도를 낼 수 있다 [14:07]
- 엔지니어링 생산성 향상은 더 오래 일하는 방식이 아니라, 인프라를 계속 개선해 반복 작업과 검증을 자동화하는 방식에 가깝다 [14:17]
- 자동화된 품질 체계는 속도를 희생하는 장치가 아니라, 오히려 더 빠르게 움직이기 위한 핵심 조건으로 드러난다 [14:32]
9. 빠른 배포는 아이디어 검증 속도를 높인다
- Spotify는 오래전부터 개발자의 아이디어가 최대한 빨리 프로덕션에 도달하는 구조를 최적화해 왔다 [15:30]
- 과거에는 아이디어가 사용자에게 도달하기까지 몇 주나 몇 달이 걸렸지만, 지금은 그 흐름이 대략 한 시간 수준까지 줄어든 것으로 드러난다 [15:45]
- 내부 사용자나 외부 사용자에게서 더 빠르게 피드백을 얻을수록 아이디어를 더 자주 검증할 수 있다 [15:57]
- 이 반복 속도는 제품 품질을 높이고, 사용자가 실제로 체감하는 가치가 전달되는 속도도 함께 끌어올린다 [16:12]
10. AI 도구의 ROI는 PR 지표에서 사용자 가치 연결로 이동한다
- Spotify 엔지니어링 조직은 약 2,900명 규모이며, AI 도구의 효과는 PR 빈도 75% 이상 개선과 약 73%의 AI 작성 PR 비중 같은 생산성 지표로 나타난다 [16:38]
- 이런 지표는 AI 도구가 개발 흐름에 실제로 영향을 주고 있음을 보여주는 신호로 드러난다 [16:53]
- 하지만 단순히 PR이 많아졌다는 생산성 지표만으로는 충분하지 않다 [17:23]
- PR과 배포를 계획된 작업 항목, A/B 테스트, 롤아웃, 최종 사용자 가치로 연결해 측정하는 체계가 필요해진다 [17:38]
11. 표준화와 일관성은 인간과 에이전트 모두의 생산성을 높인다
- 테스트 자동화와 검증 같은 기반 역량 외에도, 더 일관된 코드베이스와 정렬된 도구·프레임워크는 에이전트 활용에서 중요한 투자 영역이 된다 [19:33]
- 코드와 도구가 표준화되어 있을수록 에이전트가 예측 가능한 방식으로 변경을 수행하고 검증하기 쉬워진다 [19:48]
- 원래 인간 개발자의 생산성을 높이기 위해 해온 표준화 투자는 에이전트에도 그대로 긍정적인 영향을 준다 [19:58]
- 코드가 비슷한 패턴을 가질수록 에이전트는 저장소 안의 다른 코드 조각에서 힌트를 얻고, 현재 문제에 적용할 가능성이 높아진다 [20:13]
12. 엔지니어 역할은 구현 시간에서 문제 선택과 프로토타이핑으로 넓어진다
- 코딩의 문제 해결 자체를 좋아하던 개발자에게도 에이전트 전환은 개인적인 불안을 만들 수 있다 [21:10]
- 하지만 영상에서는 문제를 푸는 방식이 바뀌었을 뿐, 문제 해결의 즐거움 자체는 계속 남을 수 있다고 보여준다 [21:25]
- 여러 에이전트가 백그라운드에서 일하는 환경에서는 개발자와 도구의 상호작용 방식이 1~2년 전과 크게 달라진다 [21:49]
- 직접 구현하는 시간보다 어떤 문제를 풀지 정하고, 여러 도구와 에이전트를 조율하는 비중이 더 커진다 [22:04]
13. 실제 앱과 백엔드에서 프로토타입을 빠르게 만드는 인프라
- 실제 앱 코드는 매우 복잡하지만, Spotify 내부 팀들은 그 안에서도 에이전트 기반 시도가 작동할 수 있다는 가능성을 확인하기 시작했다 [24:00]
- 이는 단순한 장난감 예제가 아니라 실제 제품 코드와 백엔드 환경에서도 에이전트 활용을 실험하고 있다는 의미로 압축된다 [24:15]
- 몇 달 전부터 엔드투엔드 프로토타입 제작을 단순화하는 인프라가 구축됐다 [24:30]
- 모바일 앱과 백엔드 양쪽에서 빠르게 시작할 수 있는 방식이 마련되면서, 아이디어를 실제 동작하는 프로토타입으로 옮기는 시간이 줄어들고 있다 [24:45]
14. 프로토타입 생산 주체 확대와 아이디어 검증 시간 단축
- 프로토타입 제작 주체는 특정 엔지니어링 직군에만 제한되지 않고, 공동 CEO까지 내부 앱스토어에 프로토타입을 올릴 정도로 넓어졌다 [25:25]
- 이는 에이전트와 내부 인프라가 아이디어 실험의 진입장벽을 낮추고 있음을 보여준다 [25:40]
- 여러 시니어 임원도 오랫동안 갖고 있던 아이디어를 직접 프로토타입으로 만들고 있다 [25:55]
- 별도 엔지니어링 팀이 다른 우선순위에 묶여 있어도 실험이 지연되지 않기 때문에, 조직 전체의 아이디어 검증 속도가 빨라지는 방향으로 마무리된다 [26:10]
🧾 결론
- 이 인터뷰의 핵심은 “에이전트가 코드를 얼마나 잘 쓰는가”보다 “조직이 에이전트가 만든 변경을 얼마나 안전하게 흡수할 수 있는가”에 가깝다.
- Spotify의 사례에서 Honk는 단순 코드 변경 도구가 아니라 Slack 요청, 저장소 작업, CI 검증, 내부 도구 연동을 포함하는 에이전트 운영 플랫폼으로 확장됐다.
- 대규모 코드베이스에서 에이전트 활용의 전제 조건은 테스트 자동화, 일관된 프레임워크, 표준화된 패턴, 빠른 배포 체계처럼 기존 엔지니어링 기본기의 강화다.
- 엔지니어의 역할은 직접 구현 시간을 줄이는 방향으로 바뀌지만, 문제 선택, 검증 설계, 도구 조율, 프로토타이핑 같은 상위 판단의 중요성은 더 커진다.
- 검증 필요: 영상의 수치와 사례는 인터뷰 발화에 근거한 요약이며, Spotify 내부 전체 시스템의 현재 상태나 장기 ROI를 외부에서 독립 검증한 자료로 단정하기는 어렵다.
📈 투자·시사 포인트
- 기업용 AI 코딩 도구의 가치는 단순한 코드 생성 능력보다 대규모 저장소 이해, 내부 도구 연동, CI·테스트 자동화, 정책 기반 검증까지 포함하는 운영 체계에서 더 크게 드러난다.
- 대형 소프트웨어 조직은 에이전트 도입 전에 코드 표준화와 테스트 커버리지, 배포 자동화, 컴포넌트 책임 구조를 정비해야 실제 생산성 개선을 안정적으로 얻을 가능성이 높다.
- AI 도구 ROI 평가는 PR 수 증가 같은 단기 생산성 지표에서 벗어나, 배포 속도, 실험 횟수, 사용자 피드백 회수, 실제 제품 가치로 이어지는지를 함께 봐야 한다.
- Spotify 사례는 에이전트 도입이 인력 대체 논리만이 아니라 유지보수 부채 해소, 마이그레이션 가속, 프로토타입 실험 비용 감소로도 연결될 수 있음을 보여준다.
- 투자 관점에서는 모델 제공사뿐 아니라 엔터프라이즈 개발 플랫폼, 코드베이스 분석, 자동 검증, 내부 도구 오케스트레이션을 지원하는 인프라 영역의 중요성이 커질 수 있다.
⚠️ 불확실하거나 확인이 필요한 부분
- “IDE 없이 일하는 방식으로 바뀌었다”는 표현은 인터뷰이의 개인 워크플로인지, Spotify 내부의 넓은 조직적 변화인지 범위 확인이 필요하다.
- Spotify의 “2천만 줄 이상 모노레포”, “약 2,900명 엔지니어”, “PR 빈도 75% 이상 개선”, “AI 작성 PR 약 73%” 같은 수치는 영상 내 발언 기준이며, 공식 자료나 최신 내부 기준과 일치하는지 별도 검증이 필요하다.
- Honk가 Slack 요청, 저장소 전반 작업, CI 검증까지 처리하는 내부 에이전트 플랫폼으로 확장됐다는 설명은 기능 범위와 실제 운영 성숙도, 사람 승인 단계가 어디에 남아 있는지 추가 확인이 필요하다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- 우리 조직의 반복 마이그레이션 작업을 Java 업그레이드, 라이브러리 교체, API 변경처럼 유형별로 분류하고 자동화 우선순위를 정한다.
- 에이전트가 수정한 코드에 대해 테스트, CI, lint, 리뷰 규칙, 롤백 기준을 포함한 폐쇄 루프 검증 체계를 먼저 설계한다.
- 대형 코드베이스에서 에이전트가 참고할 수 있도록 표준 패턴, 공통 프레임워크, 예제 구현, 코드 규칙을 명시적으로 정리한다.
- AI 도구 성과를 PR 수나 작성 비중만이 아니라 배포, 실험, 사용자 피드백, 실제 제품 가치까지 연결해 측정하는 지표를 만든다.
❓ 열린 질문
- 에이전트가 대규모 코드 변경을 수행할 때 최종 책임과 승인 권한은 플랫폼 팀, 코드 소유 팀, 또는 중앙 생산성 조직 중 어디에 두는 것이 적절한가?
- 결정적 스크립트와 LLM 기반 에이전트는 어떤 기준으로 나누어 적용해야 하며, 엣지 케이스가 많은 변경에서 비용 대비 효과는 어디서 갈리는가?
- 에이전트 도입으로 개발 속도가 빨라질 때 품질 규칙을 사람의 암묵지에서 실행 가능한 인프라로 옮기려면 어떤 순서가 가장 현실적인가?