How Lyft Built a Self-Serve AI Agent Platform with LangGraph and LangSmith

🖼️ 인포그래픽

How Lyft Built a Self-Serve AI Agent Platform with LangGraph and LangSmith 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Lyft는 LangGraph 기반 라우터형 멀티 에이전트 구조와 LangSmith 기반 추적·평가·모니터링을 결합해, 고객지원 AI 에이전트 개발을 MLE 중심 작업에서 도메인 전문가가 직접 반복 개선하는 셀프서브 플랫폼으로 전환했다.

📌 핵심 요약

Lyft의 AI Assist는 계정 접근, 손해 청구, 요금 검토, 수익 분쟁 등 라이더와 드라이버의 다양한 고객지원 문제를 처리해 왔지만, 초기에는 각 에이전트를 만들고 개선하는 데 MLE와 엔지니어링 팀의 장기간 협업이 필요했다.
수요가 늘어나면서 도메인 전문가가 워크플로를 설명하고 MLE가 이를 도구 설정과 프롬프트로 옮기는 방식은 병목이 되었고, Lyft는 운영팀, VoC 리드, 제품 매니저가 자연어와 설정으로 에이전트를 직접 만들 수 있는 셀프서브 방식을 목표로 삼았다.
아키텍처는 LangGraph의 라우터 멀티 에이전트 패턴을 따른다. 상태를 가진 메타 에이전트가 요청을 분류해 라이더·드라이버 의도 에이전트나 전문 하위 에이전트로 라우팅하고, 필요하면 대화 중에도 상위 그래프로 제어를 넘겨 다시 적절한 전문 에이전트로 보낸다.
Lyft는 복잡하고 고위험인 특화 에이전트와, JSON 설정과 LangSmith Prompt Hub의 프롬프트로 런타임에 구성되는 configurable agent를 구분했다. 이 구조 덕분에 제품 매니저도 새 프롬프트와 설정만으로 특정 주제의 에이전트를 정의할 수 있다.
운영 품질은 LangSmith의 전 구간 tracing, LLM-as-a-judge 평가, 프로덕션 대시보드, PagerDuty 알림으로 관리된다. 그러나 Lyft가 얻은 가장 큰 교훈은 인프라보다 프롬프트 품질이 병목이라는 점이며, 이를 해결하기 위해 구조화된 프롬프트 작성 프레임워크와 자동 검증 파이프라인을 도입하고 있다.

🧩 주요 포인트

Lyft의 AI Assist는 계정 접근, 손해 청구, 요금 검토, 수익 분쟁 등 라이더와 드라이버의 다양한 고객지원 문제를 처리해 왔지만, 초기에는 각 에이전트를 만들고 개선하는 데 MLE와 엔지니어링 팀의 장기간 협업이 필요했다.
수요가 늘어나면서 도메인 전문가가 워크플로를 설명하고 MLE가 이를 도구 설정과 프롬프트로 옮기는 방식은 병목이 되었고, Lyft는 운영팀, VoC 리드, 제품 매니저가 자연어와 설정으로 에이전트를 직접 만들 수 있는 셀프서브 방식을 목표로 삼았다.
아키텍처는 LangGraph의 라우터 멀티 에이전트 패턴을 따른다. 상태를 가진 메타 에이전트가 요청을 분류해 라이더·드라이버 의도 에이전트나 전문 하위 에이전트로 라우팅하고, 필요하면 대화 중에도 상위 그래프로 제어를 넘겨 다시 적절한 전문 에이전트로 보낸다.
Lyft는 복잡하고 고위험인 특화 에이전트와, JSON 설정과 LangSmith Prompt Hub의 프롬프트로 런타임에 구성되는 configurable agent를 구분했다. 이 구조 덕분에 제품 매니저도 새 프롬프트와 설정만으로 특정 주제의 에이전트를 정의할 수 있다.
운영 품질은 LangSmith의 전 구간 tracing, LLM-as-a-judge 평가, 프로덕션 대시보드, PagerDuty 알림으로 관리된다. 그러나 Lyft가 얻은 가장 큰 교훈은 인프라보다 프롬프트 품질이 병목이라는 점이며, 이를 해결하기 위해 구조화된 프롬프트 작성 프레임워크와 자동 검증 파이프라인을 도입하고 있다.

🧠 상세 정리

1. Lyft가 해결하려 한 문제: 에이전트 개발 속도와 품질의 동시 확보

Lyft의 고객지원 AI Assist는 라이더와 드라이버를 대상으로 계정 접근, 손해 청구, 요금 검토, 수익 분쟁 같은 여러 문제 영역을 처리한다. 2023년에 시작된 여정에서 Lyft는 라이더와 드라이버용 에이전트를 점점 더 효율적으로 출시했지만, 각 에이전트 개발에는 여전히 MLE와 엔지니어링 팀의 수개월 작업이 필요했다. 문제는 단순히 개발 시간이 길다는 데 있지 않았다. 고객 문제를 가장 잘 아는 운영팀, VoC 리드, 제품 매니저가 실제 구현을 직접 바꿀 수 없고, 매번 기술 담당자를 거쳐야 했다는 점이 반복 개선의 병목이 되었다.

2. 기존 운영 모델의 병목: 도메인 지식과 기술 구현 사이의 왕복

기존 방식에서는 도메인 전문가가 원하는 워크플로 동작을 정의하고, MLE가 이를 도구 설정과 프롬프트로 번역했다. 이후 trace를 검토하고 문제를 표시하고 코드를 조정하는 왕복 과정이 이어졌으며, 에이전트 하나마다 몇 주의 협업이 필요했다. 2026년에는 신규 사용자 세그먼트, 추가 이슈 유형, 자율주행차 지원 등으로 수요가 더 커지면서 이 모델이 지속 가능하지 않게 되었다. Lyft가 던진 핵심 질문은 운영팀과 제품 담당자가 자연어로 에이전트를 직접 구성하고 개선할 수 있는가였다. 동시에 이 전환은 사용자 경험, 정확도, 안전성 기준을 낮추지 않아야 했다.

3. LangGraph 기반 라우터 멀티 에이전트 구조

Lyft의 시스템은 LangGraph의 라우터 멀티 에이전트 아키텍처를 따른다. 메타 에이전트가 상태를 가진 라우터처럼 동작해 들어온 요청을 분류하고, Command(goto=...)를 사용해 적절한 전문 하위 에이전트로 보낸다. 각 하위 에이전트는 완전한 LangGraph StateGraph이며, 메타 에이전트 안에서는 subgraph node로 등록된다. Lyft는 라이더와 드라이버에 대해 별도의 라우터 인스턴스를 운영한다. 라이더 요청은 분실물, 요금 분쟁, 운행 문제 같은 라이더 특화 의도를 분류하는 에이전트로, 드라이버 요청은 수익, 계정 접근, 손해 청구 같은 드라이버 특화 의도를 다루는 에이전트로 라우팅된다.

4. 대화 중 라우팅과 안전 게이트의 역할

이 구조의 중요한 특징은 대화가 시작될 때 한 번만 분류하는 것이 아니라, 대화 중에도 더 적합한 전문 에이전트로 제어를 넘길 수 있다는 점이다. 예를 들어 드라이버 의도 에이전트가 대화 도중 손해 청구 에이전트가 필요하다고 판단하면 Command(goto=..., graph=Command.PARENT)를 통해 메타 에이전트에 제어를 돌려주고, 메타 에이전트가 다시 전문 에이전트로 라우팅한다. 또한 각 하위 에이전트는 일관된 노드 패턴을 따르며, 매 턴마다 악의적 의도 탐지와 안전 이슈 탐지가 LLM 추론 전에 병렬로 실행된다. LangGraph의 fan-out을 통해 안전 점검이 기본 흐름에 포함되므로, 모듈성과 안전성을 함께 확보한다.

5. 특화 에이전트와 configurable agent의 분리

Lyft는 에이전트를 크게 두 범주로 나눈다. 특화 에이전트는 복잡하고 고위험인 워크플로를 위해 MLE가 직접 만든다. 예를 들어 손해 청구 에이전트는 이미지 처리, 사기 탐지, 다단계 분류, 자동화 호출을 포함하므로 단순한 로우코드 방식으로 처리하기 어렵다. 반면 configurable agent는 셀프서브 계층이다. 이 에이전트들은 내부 설정 서비스에 저장된 JSON 구성과 LangSmith Prompt Hub의 프롬프트를 런타임에 불러와 초기화된다. 도메인 전문가는 역할, 범위, 워크플로 단계, 콘텐츠 가이드라인을 포함한 구조화된 템플릿에 따라 프롬프트를 작성하고, 플랫폼이 그래프 구성, 도구 바인딩, 안전 게이트, 상태 관리를 맡는다.

6. 지속 상태 관리와 LangSmith tracing의 운영상 가치

멀티턴 고객지원 대화에서는 이전 상태를 안정적으로 유지해야 하므로, Lyft는 LangGraph의 BaseCheckpointSaver 인터페이스를 구현한 DynamoDBSaver를 만들었다. 각 checkpoint는 전체 그래프 상태, 실행 메타데이터, 부모 checkpoint 참조를 저장해 프로덕션에서 대화 재생, 디버깅, 상태 검사를 가능하게 한다. 또한 모든 환경의 에이전트 호출은 LangSmith로 tracing된다. trace에는 어떤 노드가 실행되었는지, LLM이 무엇을 보았는지, 어떤 도구가 호출되었는지, 토큰 사용량과 단계별 지연 시간이 담긴다. 사용자 유형, 에이전트 이름, 의도, 대화 ID 같은 메타데이터도 함께 전달되어 특정 문제를 빠르게 필터링하고 원인을 찾을 수 있다.

7. LLM-as-a-judge 평가와 프로덕션 모니터링

Lyft는 에이전트를 전체 트래픽에 배포하기 전에 평가 파이프라인을 통과하게 한다. 먼저 5~10% 수준의 작은 프로덕션 롤아웃을 통해 실제 트래픽을 낮은 볼륨으로 처리하고, 이때의 실제 대화를 평가 데이터셋으로 샘플링한다. 이후 LangSmith Prompt Hub의 공유 judge prompt template을 기반으로 LLM-as-a-judge 평가를 실행하며, 에이전트별 지표를 추가한다. 예를 들어 core earnings agent는 관련 정책을 따랐는지, 비논리적이거나 일관되지 않은 추론을 사용했는지 확인한다. 프로덕션에서는 각 에이전트에 대해 실행량, 오류율, p50·p95 지연 시간, 토큰 사용량, 도구 호출 성공률, LLM judge 점수 추이를 대시보드로 추적하고, 오류율이나 지연 시간이 기준을 넘으면 PagerDuty 알림을 보낸다.

8. 가장 큰 교훈: 인프라보다 프롬프트 품질이 병목이었다

Lyft는 처음에 비기술 구성원에게 에이전트 구축을 열어 주면 가장 어려운 부분이 도구 바인딩, 그래프 edge case, 상태 관리 같은 플랫폼 인프라일 것이라고 예상했다. 그러나 실제 병목은 프롬프트 품질이었다. 도메인 전문가는 이슈 유형을 잘 이해했지만, 그 지식을 LLM이 안정적으로 따를 수 있는 명령으로 바꾸는 데 항상 익숙하지 않았다. 그 결과 정상 경로에서는 잘 작동하지만 사용자가 대화 중 주제를 바꾸거나 도구가 없는 질문을 하는 경우 무너지는 에이전트가 나타났다. Lyft는 이를 해결하기 위해 정체성, 명확한 목표, in-scope와 out-of-scope, 단계별 워크플로, 구체적인 do/don't 가이드를 포함하는 프롬프트 작성 프레임워크를 만들고, 프롬프트가 프로덕션에 들어가기 전에 검증하는 Git 기반 linting 파이프라인도 구축 중이라고 설명한다.

🧾 핵심 주장 / 시사점

셀프서브 AI 에이전트 플랫폼의 핵심은 비기술 담당자에게 단순히 프롬프트 입력창을 주는 것이 아니라, 라우팅·상태·도구 실행·안전 게이트·관측성을 플랫폼이 표준화해 주는 데 있다.
Lyft의 사례는 프로덕션 에이전트 품질 관리가 배포 전 테스트만으로 끝나지 않음을 보여준다. 실제 트래픽 샘플링, LangSmith trace, LLM-as-a-judge, 지연 시간과 오류율 대시보드가 함께 작동해야 반복 개선이 가능하다.
프롬프트 품질 문제는 도메인 전문성의 부족이 아니라 표현 체계의 부족에서 발생했다. 역할, 범위, 분기 조건, 종료 조건, 예외 처리, 구체적 문장 예시를 요구하는 템플릿은 비기술 팀이 안정적인 에이전트를 만들기 위한 중요한 운영 장치다.

✅ 액션 아이템

원문에서 강조한 핵심 변화와 이해관계자를 기준으로 How Lyft Built a Self-Serve AI Agent Platform with LangGraph and LangSmith의 영향을 정리한다.
다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.

❓ 열린 질문

Cloudflare’s AI Platform an inference layer designed for agents]]" "211. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
Enterprise Reinforcement Learning Research for Agents" "201. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
Top 4 Parallel AI Alternatives for Web Search and Data Extraction in 2026" "217. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
Google DeepMind is worried about what happens when millions of agents start to interact MIT Technology Review" "[[193. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?