Everything we shipped at Interrupt

🖼️ 인포그래픽

Everything we shipped at Interrupt 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

LangChain은 Interrupt에서 LangSmith Engine, SmithDB, Managed Deep Agents, Sandboxes GA, Context Hub, LLM Gateway, Fleet 기능 확장, Deep Agents 0.6 등 에이전트 개발·운영 전 주기를 가속하는 제품과 기능을 발표했다.

📌 핵심 요약

LangSmith Engine은 운영 환경의 trace를 감시해 실패를 이슈로 묶고, 원인을 코드와 대조해 진단하며, 수정 PR과 평가 커버리지를 제안하는 자율 개선 루프를 제공한다.
SmithDB는 대규모·장시간·중첩 trace를 분석하기 위해 만든 에이전트 observability 전용 데이터베이스로, Rust, Apache DataFusion, Vortex, object storage, Postgres metastore, stateless 서비스 구조를 사용한다.
Managed Deep Agents와 LangSmith Sandboxes는 장기 실행, 지속 컨텍스트, 파일·도구 접근, 샌드박스 코드 실행, checkpointing, human-in-the-loop 등 production agent runtime에 필요한 기반을 API와 SDK로 제공한다.
Context Hub와 LLM Gateway는 agent 동작을 좌우하는 지침·정책·예시 파일을 협업·버전 관리하고, LLM 호출 앞단에서 비용 제한, 민감정보 탐지·redaction, audit logging, trace 연계를 수행한다.
LangSmith Fleet는 샌드박스 접근, 다섯 가지 prebuilt agent, 무료 모델 사용을 추가했고, Deep Agents 0.6은 코드 인터프리터, typed streaming, DeltaChannel을 통해 agent layer 성능과 규모 대응을 개선한다.

🧩 주요 포인트

LangSmith Engine은 운영 환경의 trace를 감시해 실패를 이슈로 묶고, 원인을 코드와 대조해 진단하며, 수정 PR과 평가 커버리지를 제안하는 자율 개선 루프를 제공한다.
SmithDB는 대규모·장시간·중첩 trace를 분석하기 위해 만든 에이전트 observability 전용 데이터베이스로, Rust, Apache DataFusion, Vortex, object storage, Postgres metastore, stateless 서비스 구조를 사용한다.
Managed Deep Agents와 LangSmith Sandboxes는 장기 실행, 지속 컨텍스트, 파일·도구 접근, 샌드박스 코드 실행, checkpointing, human-in-the-loop 등 production agent runtime에 필요한 기반을 API와 SDK로 제공한다.
Context Hub와 LLM Gateway는 agent 동작을 좌우하는 지침·정책·예시 파일을 협업·버전 관리하고, LLM 호출 앞단에서 비용 제한, 민감정보 탐지·redaction, audit logging, trace 연계를 수행한다.
LangSmith Fleet는 샌드박스 접근, 다섯 가지 prebuilt agent, 무료 모델 사용을 추가했고, Deep Agents 0.6은 코드 인터프리터, typed streaming, DeltaChannel을 통해 agent layer 성능과 규모 대응을 개선한다.

🧠 상세 정리

1. 발표의 전체 초점: 에이전트 개발 수명주기 가속

원문은 Interrupt 행사에서 발표한 여러 제품과 기능을 한꺼번에 소개하는 구조로 시작한다. 핵심 목표는 팀들이 agent development lifecycle을 더 빠르게 진행하도록 돕는 것이다. 일부 기능은 자체 구축에 몇 분기가 걸릴 수 있는 인프라를 대신 제공하고, 다른 기능은 무엇이 고장 났는지 찾고 원인을 이해하며 수정안을 더 빠르게 배포하도록 돕는다. 따라서 발표의 중심은 단일 모델 기능이 아니라, 관찰·평가·수정·실행·보안·운영까지 이어지는 agent production workflow 전체를 제품군으로 묶는 데 있다.

2. LangSmith Engine: trace 기반 자율 개선 루프

LangSmith Engine은 기존에 사람이 수동으로 수행하던 agent 개선 과정을 자동화하는 제품으로 설명된다. 이전에는 trace를 읽고, 반복되는 패턴을 찾고, eval을 작성하고, 수정안을 만드는 작업이 필요했다. Engine은 운영 trace를 관찰해 실패를 이름 붙은 issue로 cluster하고, 코드와 대조해 root cause를 진단한 뒤, 수정과 평가 커버리지를 제안한다. 각 issue에 대해 targeted code 또는 prompt fix가 담긴 PR을 열 수 있고, 동일 문제가 다시 발생하면 resurfacing되도록 custom online evaluator를 만들며, 실패 trace를 offline eval suite의 ground truth 예시로 추가할 수 있다. Cogent와 Campfire는 이 기능을 사용해 수천 개 trace에 영향을 주던 문제를 해결했다고 소개되며, 현재 public beta로 제공된다.

3. SmithDB: agent observability 전용 데이터베이스

SmithDB는 LangSmith의 core workload를 뒷받침하는 agent observability 목적의 데이터베이스로 소개된다. 원문은 agent trace의 volume과 size가 폭발적으로 증가했고, deeply nested span, long-running operation, 여러 시간에 걸쳐 조각조각 도착하는 event가 일반화됐다고 설명한다. 이를 분석하려면 random access, interactive filtering, full-text search, JSON filtering, tree-aware query, thread reconstruction, aggregation 같은 query pattern이 필요하며, 기존 데이터베이스 구조와는 다른 architecture가 요구된다는 논리다. SmithDB는 Rust로 작성됐고 Apache DataFusion과 Vortex 위에 구축됐으며, durable trace data를 위한 object storage, 작은 Postgres metastore, stateless ingestion·query·compaction service를 조합한다. 성능 측면에서는 core LangSmith experience에서 최대 15배 빠르고, P50 trace tree load 92ms, P50 single run load 71ms를 제시한다.

4. Managed Deep Agents: hosted runtime으로 deep agent 운영

Managed Deep Agents는 LangSmith 안에서 deep agent를 만들고 실행하고 운영하기 위한 API-first hosted runtime이다. open-source Deep Agents harness를 기반으로 하며, 계획 수립, 도구 사용, subagent 위임, 파일 작성, 긴 timeline에 걸친 작업을 지원하는 agent를 대상으로 한다. 팀이 자체 agent server를 세우거나 매 agent마다 runtime infrastructure를 다시 만들 필요를 줄이는 것이 목적이다. 원문은 durable execution, persistent context, tool access, sandboxed code execution, production visibility가 필요한 agent를 위해 설계됐다고 설명한다. 개발자는 익숙한 Deep Agents project structure로 agent를 정의하고, /v1/deepagents API를 통해 programmatic하게 관리하며, 모든 run을 LangSmith에서 inspect할 수 있다.

5. Managed Deep Agents의 실행·컨텍스트 기능

Managed Deep Agents의 구체 기능은 장기 실행 agent 운영에 맞춰져 있다. API를 통해 deep agent를 create, update, manage, run할 수 있는 managed runtime을 제공하고, long-running task를 위해 durable thread, streaming run, checkpointing, human-in-the-loop workflow를 지원한다. 또한 agent context와 file 구조로 AGENTS.md, skills/, subagents/, tools.json을 다룰 수 있다. Context Hub와도 연결되어 agent memory, operating note, user preference, project context를 run 사이에서 유지하고 갱신할 수 있다. 여기에 sandbox-backed execution을 통해 code, shell command, file I/O, data analysis, artifact generation이 필요한 agent 작업까지 수행할 수 있도록 한다.

6. LangSmith Sandboxes GA: 안전한 코드 실행 환경

LangSmith Sandboxes는 agent가 코드를 실행할 수 있는 secure execution environment로, 이번 발표에서 generally available 상태로 소개된다. 각 sandbox는 filesystem, shell, package manager, persistent state, network boundary를 갖추고 있어 agent가 code를 작성하고 dependency를 설치하며 test를 실행하고 failure를 조사한 뒤 긴 session에 걸쳐 작업을 이어갈 수 있다. 모든 sandbox는 hardware-virtualized microVM에서 실행되어 서비스 및 다른 sandbox와 격리된다. 이 격리는 model-generated code, external dependency, user-provided script를 실행하는 agent에게 특히 중요하다고 원문은 강조한다. LangSmith SDK와 API key를 통해 Deep Agents, Open SWE, LangSmith Deployment, LangSmith Fleet 또는 custom agent workflow에 안전한 코드 실행 기능을 붙일 수 있다.

7. Sandboxes GA의 운영 편의 기능

GA release에서 Sandboxes는 snapshot, fork, blueprint, pause, CLI, Auth Proxy 같은 운영 기능을 포함한다. snapshot과 cheap fork는 sandbox 상태를 capture하거나 Docker image에서 만들고, copy-on-write 방식으로 parallel sandbox를 빠르게 fork할 수 있게 한다. blueprint는 refreshable base environment를 정의해 새로운 sandbox가 fresh dependency, repo state, warmed cache로 시작하도록 돕는다. idle sandbox는 자동으로 pause되어 사용하지 않는 resource 비용을 줄인다. Sandbox CLI는 sandbox 관리, snapshot build, console open, TCP tunneling, ssh·scp·rsync·sftp 같은 도구 사용을 지원한다. Auth Proxy는 credential을 runtime 내부가 아니라 network layer에서 주입하고, custom secret resolution, audit hook, domain allowlist 또는 denylist를 지원한다.

8. Context Hub: agent context를 협업 가능한 자산으로 관리

LangSmith Context Hub는 agent 행동을 형성하는 파일을 중앙에서 관리하는 공간이다. 원문은 AGENTS.md, skill, policy, example, 기타 context bundle처럼 agent가 읽고 따르는 자료를 예로 든다. 이런 context는 harness code와 다르게 빠르게 바뀌며, 팀이 instruction을 다듬고 example을 업데이트하고 policy를 추가하면서 계속 변화한다. 또한 디자이너, 마케터, support lead, product manager, compliance team, domain expert 등 조직 내 다양한 사람이 관여한다. Context Hub는 이 workflow를 LangSmith 안으로 가져와 모든 context 관리를 GitHub에 강제하지 않으면서 협업할 수 있게 한다. 핵심 기능은 versioning, dev·staging·prod 같은 tag, context change에 대한 comment이며, 이를 통해 agent system에서 context를 first-class 요소로 다루게 한다.

9. LangSmith LLM Gateway: LLM 호출의 비용·보안 거버넌스

LangSmith LLM Gateway는 agent와 LLM provider 사이에 위치하는 runtime governance layer다. 요청이 환경을 떠나기 전에 spend limit을 적용하고 sensitive data를 탐지하며, policy event를 해당 trace와 함께 LangSmith로 직접 흘려보낸다. 별도의 dashboard나 audit pipeline을 구축할 필요가 없다는 점이 강조된다. beta에는 organization, workspace, user, API key 수준의 hard spend cap과 real-time cost rollup, request와 response 양쪽의 PII 및 secret redaction, layered policy enforcement, administrative action에 대한 full audit logging이 포함된다. 설정은 base_url swap 방식으로 설명되며, gateway endpoint와 LangSmith API key를 사용하고 provider key를 workspace secret에 넣은 뒤 UI에서 policy를 구성하는 흐름이다. spend cap에 도달하면 402를 반환하고, gateway-proxied call은 나머지 trace와 같은 workspace에 남는다.

10. Fleet 확장과 Deep Agents 0.6

LangSmith Fleet에는 Sandbox access가 public beta로 추가되어 agent가 단순 tool 호출을 넘어 안전한 환경에서 code를 쓰고 실행할 수 있게 됐다. Fleet agent는 data analysis, file generation과 transformation, coding task, local tool과 CLI 사용, persistent workspace가 필요한 prebuilt coding agent 실행 같은 복잡한 작업을 수행할 수 있다. sandbox는 chat thread 또는 agent 단위로 scope를 잡을 수 있고, 기본 15분 idle soft TTL로 inactive session 비용을 줄이면서 contents를 파괴하지 않는다. Fleet에는 Coding agent, GTM agent, X content manager, Executive assistant, Competitive researcher 등 다섯 가지 prebuilt agent도 추가됐다. 각 agent는 onboarding flow를 통해 산업, 제품, 고객 같은 context를 받아 generic agent보다 실제 맥락에 맞게 조정된다. 마지막으로 Developer와 Plus plan에는 Fireworks 기반 free model usage가 포함되며, Deep Agents 0.6은 lightweight code interpreter, typed streaming, DeltaChannel을 통해 agent layer 성능과 checkpoint storage 효율을 개선한다고 설명된다.

🧾 핵심 주장 / 시사점

이번 발표의 공통 축은 agent를 데모가 아니라 운영 시스템으로 다루기 위해 trace, eval, runtime, sandbox, context, policy, cost control을 하나의 LangSmith workflow 안에 묶는 것이다.
LangSmith Engine과 LLM Gateway는 단순 관찰을 넘어 자동 triage, 수정 제안, policy event 추적까지 연결해 production agent 운영의 반복 작업을 줄이려는 방향을 보여준다.
Context Hub와 Fleet prebuilt agent의 onboarding flow는 agent 성능이 모델만이 아니라 지침, 예시, 정책, 조직별 맥락 관리에 크게 좌우된다는 전제를 분명히 드러낸다.

✅ 액션 아이템

운영 중인 에이전트 서비스에서 trace, eval, prompt/context 변경, policy event가 서로 분리되어 있는지 점검하고, LangSmith처럼 하나의 개선 루프로 묶을 수 있는 구간을 찾는다.
장기 실행 에이전트에 필요한 runtime 요구사항을 durable thread, sandboxed code execution, checkpointing, human-in-the-loop, 비용 제한, PII redaction 항목으로 나눠 우선순위를 정한다.
Agent 지침과 예시, 정책 파일을 AGENTS.md나 skill처럼 관리한다면 dev·staging·prod 버전 구분과 변경 리뷰 절차를 명시해 Context Hub형 운영 자산으로 다룬다.

❓ 열린 질문

Production agent 운영에서 가장 큰 병목은 모델 성능보다 trace를 읽고 실패 패턴을 수정 가능한 평가와 PR로 바꾸는 과정에 있을까?
Managed Deep Agents와 Sandboxes 같은 hosted runtime이 보편화되면, 기업은 자체 에이전트 서버를 얼마나 직접 구축해야 할까?
Context, policy, cost control이 LangSmith workflow 안으로 들어오면 agent 품질 관리는 소프트웨어 배포 관리에 더 가까워질까?