Articleopenai.com·2026년 5월 15일·0

Databricks brings GPT-5.5 to enterprise agent workflows

Quick Summary

Databricks는 복잡한 기업 문서 작업 벤치마크인 OfficeQA Pro에서 GPT 5.5가 새 최고 성능을 기록하자, 이를 고객용 엔터프라이즈 에이전트 워크플로에 제공하기 시작했다.

Databricks brings GPT-5.5 to enterprise agent workflows 관련 대표 이미지

🖼️ 인포그래픽

Databricks brings GPT-5.5 to enterprise agent workflows 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Databricks brings GPT-5.5 to enterprise agent workflows 내용을 설명하는 본문 이미지

💡 한 줄 요약

Databricks는 복잡한 기업 문서 작업 벤치마크인 OfficeQA Pro에서 GPT-5.5가 새 최고 성능을 기록하자, 이를 고객용 엔터프라이즈 에이전트 워크플로에 제공하기 시작했다.

📌 핵심 요약

  • Databricks는 GPT-5.5를 고객의 에이전트 워크플로에 사용할 수 있게 했으며, 그 배경에는 OfficeQA Pro에서의 성능 향상이 있다.
  • OfficeQA Pro는 스캔 PDF, 레거시 파일, 긴 컨텍스트 문서가 포함된 복잡한 기업 문서 작업에서 파싱, 검색, 근거 기반 추론 능력을 평가한다.
  • GPT-5.5는 에이전트 하네스 환경에서 GPT-5.4 대비 오류를 46% 줄였고, OfficeQA Pro에서 50% 정확도를 넘긴 첫 모델이 됐다.
  • Databricks는 특히 오래된 문서와 스캔 PDF에서 숫자와 세부 정보를 정확히 추출하는 파싱 중심 워크플로에서 가장 큰 개선을 확인했다.
  • GPT-5.5는 AI Unity Gateway를 통해 AgentBricks 및 Agent Supervisor API 기반 워크플로에서 파싱, 검색, 실행을 조율하는 역할로 투입된다.

🧩 주요 포인트

  1. Databricks는 GPT-5.5를 고객의 에이전트 워크플로에 사용할 수 있게 했으며, 그 배경에는 OfficeQA Pro에서의 성능 향상이 있다.
  2. OfficeQA Pro는 스캔 PDF, 레거시 파일, 긴 컨텍스트 문서가 포함된 복잡한 기업 문서 작업에서 파싱, 검색, 근거 기반 추론 능력을 평가한다.
  3. GPT-5.5는 에이전트 하네스 환경에서 GPT-5.4 대비 오류를 46% 줄였고, OfficeQA Pro에서 50% 정확도를 넘긴 첫 모델이 됐다.
  4. Databricks는 특히 오래된 문서와 스캔 PDF에서 숫자와 세부 정보를 정확히 추출하는 파싱 중심 워크플로에서 가장 큰 개선을 확인했다.
  5. GPT-5.5는 AI Unity Gateway를 통해 AgentBricks 및 Agent Supervisor API 기반 워크플로에서 파싱, 검색, 실행을 조율하는 역할로 투입된다.

🧠 상세 정리

1. OfficeQA Pro에서 확인된 GPT-5.5의 성능 향상

Databricks는 GPT-5.5가 OfficeQA Pro에서 새로운 최고 성능을 세운 뒤 이를 고객용 에이전트 워크플로에 제공한다고 밝혔다. OfficeQA Pro는 단순 질의응답이 아니라 복잡한 기업 문서 작업에서 모델이 얼마나 안정적으로 작동하는지를 보는 벤치마크다. 평가 대상에는 스캔 PDF, 레거시 파일, 긴 컨텍스트 문서가 포함되며, 파싱과 검색, 근거 기반 추론이 모두 요구된다. Databricks에 따르면 GPT-5.5는 에이전트 하네스 환경에서 GPT-5.4보다 오류를 46% 줄였고, OfficeQA Pro에서 처음으로 50% 정확도를 넘긴 모델이 됐다.

2. 스캔·레거시 문서 파싱에서 나타난 핵심 개선

원문은 GPT-5.5의 가장 큰 개선점으로 파싱이 많이 필요한 워크플로를 강조한다. OfficeQA Pro에는 오래되었거나 스캔된 기업 문서가 많이 포함되는데, 이런 문서에서는 숫자나 세부 정보를 조금만 잘못 추출해도 이후 단계 전체가 잘못된 방향으로 흘러갈 수 있다. Arnav Singhvi는 특정 숫자나 자릿수를 추출하지 못하면 에이전트가 사용하는 정보의 궤적 자체가 달라진다고 설명했다. Databricks는 GPT-5.4 같은 이전 모델이 모든 숫자를 정확히 파싱하지 못했던 반면, GPT-5.5는 오래된 문서와 스캔 PDF 파싱에서 단계적 향상을 보였다고 평가했다.

3. 검색과 다단계 오케스트레이션의 안정성

Databricks는 GPT-5.5가 단순히 문서를 더 잘 읽는 데 그치지 않고, 여러 단계를 거치는 작업의 조율에서도 개선을 보였다고 설명한다. Singhvi는 GPT-5.4의 경우 때때로 불필요한 검색 우회 경로로 빠지면서 비효율적인 작업 흐름을 만들었다고 언급했다. 반면 GPT-5.5는 관련 있는 컨텍스트를 더 안정적으로 검색하고, 추가 감독 없이 복잡한 워크플로를 완료하는 데 더 신뢰할 만한 모습을 보였다. 이는 기업용 에이전트 시스템에서 파싱 오류와 검색 비효율이 누적되어 실제 업무 실패로 이어질 수 있다는 문제의식과 연결된다.

4. AI Unity Gateway를 통한 생산 워크플로 적용

Databricks는 GPT-5.5를 AI Unity Gateway를 통해 제공하며, 고객은 AgentBricks와 Agent Supervisor API로 구축한 워크플로 안에서 이 모델을 사용할 수 있다. 이 환경에서 GPT-5.5는 전문화된 에이전트들 사이에서 파싱, 검색, 실행을 조율하는 역할을 맡는다. Singhvi는 많은 고객이 맞춤형 에이전트 워크플로를 위해 AgentBricks와 Agent Supervisor API를 사용할 것이라고 전망하며, GPT-5.5가 이러한 워크플로를 감독하는 점이 흥미롭다고 말했다. 원문은 GPT-5.5가 지식 작업 수행에서 큰 폭의 향상을 제공했다는 Databricks 측 평가로 마무리된다.

🧾 핵심 주장 / 시사점

  • 이 글의 핵심은 GPT-5.5의 개선을 일반적인 모델 성능이 아니라 기업 문서 워크플로의 실제 실패 지점인 파싱, 검색, 다단계 조율 문제에 연결해 설명한다는 점이다.
  • 스캔 PDF와 레거시 파일에서 숫자 하나를 잘못 읽는 문제가 전체 에이전트 작업 흐름을 왜곡할 수 있다는 설명은, 엔터프라이즈 에이전트 평가에서 문서 처리 정확도가 중요한 이유를 보여준다.
  • Databricks의 생산 적용 방향은 GPT-5.5를 단독 모델로 쓰는 것이 아니라, AgentBricks와 Agent Supervisor API 기반의 여러 전문 에이전트를 감독하고 조율하는 구성에 초점을 둔다.

✅ 액션 아이템

  • 원문에서 강조한 핵심 변화와 이해관계자를 기준으로 Databricks brings GPT-5.5 to enterprise agent workflows의 영향을 정리한다.
  • 다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
  • 기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
  • 후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.

❓ 열린 질문

  • Operationalizing AI in workflows Lee Spacagna, Solutions Engineer, OpenAI]]" "326. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
  • paperclip 실제 사용 후기 openclaw hermes 오픈클로 헤르메스 openai claude codex" "181. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
  • Cloudflare can fix it now." "281. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
  • OpenAI named a Leader in enterprise coding agents by Gartner" "[[247. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.