Databricks brings GPT-5.5 to enterprise agent workflows

🖼️ 인포그래픽

Databricks brings GPT-5.5 to enterprise agent workflows 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Databricks는 복잡한 기업 문서 작업 벤치마크인 OfficeQA Pro에서 GPT-5.5가 새 최고 성능을 기록하자, 이를 고객용 엔터프라이즈 에이전트 워크플로에 제공하기 시작했다.

📌 핵심 요약

Databricks는 GPT-5.5를 고객의 에이전트 워크플로에 사용할 수 있게 했으며, 그 배경에는 OfficeQA Pro에서의 성능 향상이 있다.
OfficeQA Pro는 스캔 PDF, 레거시 파일, 긴 컨텍스트 문서가 포함된 복잡한 기업 문서 작업에서 파싱, 검색, 근거 기반 추론 능력을 평가한다.
GPT-5.5는 에이전트 하네스 환경에서 GPT-5.4 대비 오류를 46% 줄였고, OfficeQA Pro에서 50% 정확도를 넘긴 첫 모델이 됐다.
Databricks는 특히 오래된 문서와 스캔 PDF에서 숫자와 세부 정보를 정확히 추출하는 파싱 중심 워크플로에서 가장 큰 개선을 확인했다.
GPT-5.5는 AI Unity Gateway를 통해 AgentBricks 및 Agent Supervisor API 기반 워크플로에서 파싱, 검색, 실행을 조율하는 역할로 투입된다.

🧩 주요 포인트

Databricks는 GPT-5.5를 고객의 에이전트 워크플로에 사용할 수 있게 했으며, 그 배경에는 OfficeQA Pro에서의 성능 향상이 있다.
OfficeQA Pro는 스캔 PDF, 레거시 파일, 긴 컨텍스트 문서가 포함된 복잡한 기업 문서 작업에서 파싱, 검색, 근거 기반 추론 능력을 평가한다.
GPT-5.5는 에이전트 하네스 환경에서 GPT-5.4 대비 오류를 46% 줄였고, OfficeQA Pro에서 50% 정확도를 넘긴 첫 모델이 됐다.
Databricks는 특히 오래된 문서와 스캔 PDF에서 숫자와 세부 정보를 정확히 추출하는 파싱 중심 워크플로에서 가장 큰 개선을 확인했다.
GPT-5.5는 AI Unity Gateway를 통해 AgentBricks 및 Agent Supervisor API 기반 워크플로에서 파싱, 검색, 실행을 조율하는 역할로 투입된다.

🧠 상세 정리

1. OfficeQA Pro에서 확인된 GPT-5.5의 성능 향상

Databricks는 GPT-5.5가 OfficeQA Pro에서 새로운 최고 성능을 세운 뒤 이를 고객용 에이전트 워크플로에 제공한다고 밝혔다. OfficeQA Pro는 단순 질의응답이 아니라 복잡한 기업 문서 작업에서 모델이 얼마나 안정적으로 작동하는지를 보는 벤치마크다. 평가 대상에는 스캔 PDF, 레거시 파일, 긴 컨텍스트 문서가 포함되며, 파싱과 검색, 근거 기반 추론이 모두 요구된다. Databricks에 따르면 GPT-5.5는 에이전트 하네스 환경에서 GPT-5.4보다 오류를 46% 줄였고, OfficeQA Pro에서 처음으로 50% 정확도를 넘긴 모델이 됐다.

2. 스캔·레거시 문서 파싱에서 나타난 핵심 개선

원문은 GPT-5.5의 가장 큰 개선점으로 파싱이 많이 필요한 워크플로를 강조한다. OfficeQA Pro에는 오래되었거나 스캔된 기업 문서가 많이 포함되는데, 이런 문서에서는 숫자나 세부 정보를 조금만 잘못 추출해도 이후 단계 전체가 잘못된 방향으로 흘러갈 수 있다. Arnav Singhvi는 특정 숫자나 자릿수를 추출하지 못하면 에이전트가 사용하는 정보의 궤적 자체가 달라진다고 설명했다. Databricks는 GPT-5.4 같은 이전 모델이 모든 숫자를 정확히 파싱하지 못했던 반면, GPT-5.5는 오래된 문서와 스캔 PDF 파싱에서 단계적 향상을 보였다고 평가했다.

3. 검색과 다단계 오케스트레이션의 안정성

Databricks는 GPT-5.5가 단순히 문서를 더 잘 읽는 데 그치지 않고, 여러 단계를 거치는 작업의 조율에서도 개선을 보였다고 설명한다. Singhvi는 GPT-5.4의 경우 때때로 불필요한 검색 우회 경로로 빠지면서 비효율적인 작업 흐름을 만들었다고 언급했다. 반면 GPT-5.5는 관련 있는 컨텍스트를 더 안정적으로 검색하고, 추가 감독 없이 복잡한 워크플로를 완료하는 데 더 신뢰할 만한 모습을 보였다. 이는 기업용 에이전트 시스템에서 파싱 오류와 검색 비효율이 누적되어 실제 업무 실패로 이어질 수 있다는 문제의식과 연결된다.

4. AI Unity Gateway를 통한 생산 워크플로 적용

Databricks는 GPT-5.5를 AI Unity Gateway를 통해 제공하며, 고객은 AgentBricks와 Agent Supervisor API로 구축한 워크플로 안에서 이 모델을 사용할 수 있다. 이 환경에서 GPT-5.5는 전문화된 에이전트들 사이에서 파싱, 검색, 실행을 조율하는 역할을 맡는다. Singhvi는 많은 고객이 맞춤형 에이전트 워크플로를 위해 AgentBricks와 Agent Supervisor API를 사용할 것이라고 전망하며, GPT-5.5가 이러한 워크플로를 감독하는 점이 흥미롭다고 말했다. 원문은 GPT-5.5가 지식 작업 수행에서 큰 폭의 향상을 제공했다는 Databricks 측 평가로 마무리된다.

🧾 핵심 주장 / 시사점

이 글의 핵심은 GPT-5.5의 개선을 일반적인 모델 성능이 아니라 기업 문서 워크플로의 실제 실패 지점인 파싱, 검색, 다단계 조율 문제에 연결해 설명한다는 점이다.
스캔 PDF와 레거시 파일에서 숫자 하나를 잘못 읽는 문제가 전체 에이전트 작업 흐름을 왜곡할 수 있다는 설명은, 엔터프라이즈 에이전트 평가에서 문서 처리 정확도가 중요한 이유를 보여준다.
Databricks의 생산 적용 방향은 GPT-5.5를 단독 모델로 쓰는 것이 아니라, AgentBricks와 Agent Supervisor API 기반의 여러 전문 에이전트를 감독하고 조율하는 구성에 초점을 둔다.

✅ 액션 아이템

원문에서 강조한 핵심 변화와 이해관계자를 기준으로 Databricks brings GPT-5.5 to enterprise agent workflows의 영향을 정리한다.
다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.

❓ 열린 질문

Operationalizing AI in workflows Lee Spacagna, Solutions Engineer, OpenAI]]" "326. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
paperclip 실제 사용 후기 openclaw hermes 오픈클로 헤르메스 openai claude codex" "181. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
Cloudflare can fix it now." "281. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
OpenAI named a Leader in enterprise coding agents by Gartner" "[[247. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?