How Rippling built production AI in 6 months with Deep Agents and LangSmith

🖼️ 인포그래픽

How Rippling built production AI in 6 months with Deep Agents and LangSmith 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Rippling은 HR·IT·급여·재무 전반에 걸친 방대한 데이터 온톨로지 문제를 해결하기 위해 Deep Agents 기반 멀티 에이전트 구조와 LangSmith 평가·관측 체계를 결합해 약 6개월 만에 운영용 AI를 구축했다.

📌 핵심 요약

Rippling의 데이터 모델은 수천 개 테이블과 수십만 개 필드, 도메인별로 의미가 달라지는 중복 개념을 포함해 단일 제품별 AI 모델로는 확장하기 어려웠다.
Rippling AI는 감독 에이전트가 read, RAG, action 에이전트를 조율하는 Deep Agents 기반 멀티 에이전트 구조로 질문 해석, 맥락 검색, 실행 작업을 처리한다.
가장 큰 기술 과제는 컨텍스트 엔지니어링이었으며, Rippling은 동적 skill 주입, 샌드박스 코드 실행, REPL 기반 변수 고정으로 컨텍스트 과부하와 환각 문제를 줄였다.
LangSmith는 전체 대화 trace, 평가 결과, 프로덕션 모니터링을 공유 가능한 관측 계층으로 제공해 팀이 실패 사례를 분석하고 회귀를 추적할 수 있게 했다.
Rippling은 실패 trace를 수집하고 에이전트가 원인을 분석해 수정안을 제안한 뒤 eval을 반복하는 반자동 self-healing loop를 구축해 운영 품질을 지속 개선한다.

🧩 주요 포인트

Rippling의 데이터 모델은 수천 개 테이블과 수십만 개 필드, 도메인별로 의미가 달라지는 중복 개념을 포함해 단일 제품별 AI 모델로는 확장하기 어려웠다.
Rippling AI는 감독 에이전트가 read, RAG, action 에이전트를 조율하는 Deep Agents 기반 멀티 에이전트 구조로 질문 해석, 맥락 검색, 실행 작업을 처리한다.
가장 큰 기술 과제는 컨텍스트 엔지니어링이었으며, Rippling은 동적 skill 주입, 샌드박스 코드 실행, REPL 기반 변수 고정으로 컨텍스트 과부하와 환각 문제를 줄였다.
LangSmith는 전체 대화 trace, 평가 결과, 프로덕션 모니터링을 공유 가능한 관측 계층으로 제공해 팀이 실패 사례를 분석하고 회귀를 추적할 수 있게 했다.
Rippling은 실패 trace를 수집하고 에이전트가 원인을 분석해 수정안을 제안한 뒤 eval을 반복하는 반자동 self-healing loop를 구축해 운영 품질을 지속 개선한다.

🧠 상세 정리

1. 방대한 온톨로지 위에서 생긴 AI 확장 문제

Rippling은 온보딩, 복리후생, 기기 지급, 비용 관리 등 인력 운영 전반을 다루는 플랫폼이다. 이 때문에 데이터 모델은 HR, IT, 급여, 재무, 글로벌 운영을 가로지르며 수천 개의 테이블과 수십만 개의 필드를 포함한다. 사용자가 “내 잔액이 얼마야?”라고 묻더라도 그 의미는 건강저축계좌, 신용카드, 계약자 지급 계정, 휴가 정책 등 여러 도메인으로 갈라질 수 있다. 원문은 이런 구조에서 단순히 스키마 조각을 LLM에 넘기는 방식이 작동하지 않는다고 설명한다. 제품별로 분리된 수직 모델은 각 영역 안에서는 도움이 될 수 있지만, Rippling처럼 개념이 겹치고 맥락에 따라 의미가 바뀌는 플랫폼 전체를 추론하기에는 한계가 있었다.

2. 제품별 AI에서 공통 추론 계층으로의 전환

Rippling 팀은 개별 제품에 AI를 붙이는 과정에서 siloed, vertical-specific 모델이 확장되지 않는다는 점을 확인했다. 같은 이름의 엔티티나 개념이 HR, IT, finance, global operations에서 서로 다른 의미를 갖기 때문에, 한 도메인에 최적화된 모델만으로는 사용자의 실제 업무 흐름을 따라가기 어렵다. 예를 들어 관리자는 인원 현황을 묻다가 지출 분석으로 이동하고, 이어서 신규 입사자의 기기 지급 상태를 확인할 수 있다. 이런 흐름은 단일 도메인 질의가 아니라 여러 시스템을 넘나드는 맥락 전환이다. 따라서 Rippling은 전체 온톨로지를 가로질러 의미를 분별하고 동작할 수 있는 AI-native reasoning layer가 필요하다고 판단했다.

3. Deep Agents 기반 멀티 에이전트 구조

Rippling AI는 LangChain Deep Agents와 LangSmith 위에서 구축됐고, 약 6개월 만에 프로덕션에 배포됐다. 핵심 구조는 감독 에이전트가 5~7개의 전문 하위 에이전트를 조율하는 방식이다. 사용자는 Rippling 포털과 모바일 앱의 채팅 인터페이스를 통해 AI와 상호작용하지만, 결과는 단순 텍스트에 머물지 않는다. 구조화 데이터는 정렬·필터 가능한 테이블로 표시되고, 다중 선택형 확인은 선택 UI로 제공되며, 실행 전 확인도 별도 상호작용 패턴을 갖는다. 내부적으로 감독 에이전트는 들어온 질의를 분석해 어떤 전문 에이전트 또는 에이전트 조합을 호출할지 결정하는 주 추론 루프를 담당한다.

4. Read, RAG, Action 에이전트의 역할 분담

원문은 감독 에이전트 아래에 세 종류의 전문 Deep Agents가 있다고 설명한다. Read agents는 HR, payroll, IT, finance 같은 Rippling 제품 영역과 Salesforce, Carta, GitHub 같은 연결 플랫폼의 구조화 데이터를 조회한다. RAG agents는 help center 문서, 회사 핸드북, Rippling에 호스팅된 HR 정책 문서처럼 비정형 소스에서 필요한 정보를 검색한다. Action agents는 보너스 업로드, 직무명과 레벨 구조 정규화, 기존 직원 프로필을 바탕으로 신규 입사자 생성을 트리거하는 등 쓰기 작업을 수행한다. 이 구조는 질문 응답, 문서 검색, 실제 업무 실행을 하나의 대화형 경험 안에서 연결하되 각 기능을 전문 에이전트에 분리해 처리하도록 설계됐다.

5. 컨텍스트 엔지니어링: 동적 skill, 코드 실행, 변수 고정

Rippling 규모에서 가장 어려운 문제는 컨텍스트 엔지니어링이었다. 전체 스키마나 그 일부를 그대로 컨텍스트에 넣으면 충돌하는 엔티티가 너무 많고, 고객이 기대하는 시간 안에 처리하기도 어렵다. Rippling은 먼저 사용자의 질문에 대해 semantic layer로 관련 도메인을 찾고, 해당 도메인에 맞는 skill만 주입하는 동적 skill injection을 사용했다. 여기에 re-ranker를 적용해 컨텍스트 크기를 100~500배 줄였다. 쓰기 작업에서는 LLM이 데이터를 직접 조작하게 하지 않고 샌드박스 코드 실행으로 CSV 같은 입력을 내부 도구가 기대하는 형식으로 정규화했다. 또한 긴 영숫자 ID를 LLM이 반복하다 환각하는 문제를 줄이기 위해 REPL이 런타임 변수 저장소를 유지하고, 에이전트는 원문 문자열 대신 이름 붙은 변수를 참조하도록 했다.

6. LangSmith를 통한 관측, 평가, self-healing loop

Rippling은 모든 엔지니어가 하나의 AI 시스템 위에서 작업하기 때문에 공유 가능하고 질의 가능한 trace 저장소가 중요하다고 본다. LangSmith는 대화 trace, 평가, 프로덕션 모니터링을 제공해 실패 사례를 대규모로 분석할 수 있게 한다. 팀은 실패한 production trace를 LangSmith에서 가져오고, 에이전트가 실패 원인을 분석해 몇 가지 수정안을 제안한 뒤 eval을 다시 실행하는 반자동 루프를 만들었다. 이 과정은 회귀가 닫힐 때까지 반복되고, 마지막에는 사람이 PR을 검토해 병합한다. 평가 체계도 계층화되어 있으며, 커밋마다 로컬에서 도는 offline eval, 병합 후 sandbox에서 300~400개 질의를 실행하는 integration eval, 배포를 막을 수 있는 핵심 시나리오 eval, 하루 여러 차례 production data를 대상으로 실행되는 continuous eval로 구성된다.

🧾 핵심 주장 / 시사점

복잡한 업무 플랫폼에서 AI의 핵심 난제는 모델 자체보다 도메인 간 의미 충돌을 줄이는 컨텍스트 설계와 권한 있는 실행 구조에 가까울 수 있다.
Rippling의 구조는 LLM에게 모든 정보를 한꺼번에 주는 방식보다, 먼저 도메인을 좁히고 필요한 skill과 도구만 제공하는 방식이 운영 환경에서 더 현실적임을 보여준다.
LangSmith 기반 trace와 eval, self-healing loop는 프로덕션 AI를 한 번 배포하고 끝내는 제품이 아니라 지속적으로 실패를 수집·수정·검증하는 시스템으로 다뤄야 한다는 점을 강조한다.

✅ 액션 아이템

Principal Engineer의 LLM 신호를 Principal Engineer 기준으로 분해하고, Principal Engineer Code 대비 매출·수요·수익성 논리가 얼마나 검증 가능한지 점검한다.
Deep Agents 발언과 Principal Engineer의 투자자 수요를 함께 보며, 상장 가능성과 실제 공개 재무 수치 확인이 필요한 항목을 분리한다.
Principal Engineer 비상장주 수요와 Principal Engineer Code 2차시장 반응을 비교해, IPO 일정·철회 가능성·시장 과열 리스크를 별도 체크리스트로 관리한다.

❓ 열린 질문

Principal Engineer의 LLM가 실제 상장으로 이어진다면 Principal Engineer 중 어떤 지표가 투자자 신뢰를 가장 먼저 좌우할까?
Principal Engineer와 Principal Engineer Code의 IPO 경쟁에서 매출 성장, 수익성, 2차시장 수요는 각각 어떤 순서로 검증되어야 할까?
비공개 S-1이 철회될 수 있다는 caveat를 감안하면, Principal Engineer의 공개시장 진입 신호를 어느 시점부터 확정적 변화로 볼 수 있을까?