ArticleOpenAI·2026년 6월 13일·1

Building self-improving tax agents with Codex

Quick Summary

OpenAI와 Thrive Holdings는 Crete 회계사들의 실제 세무 업무, 전문가 피드백, 프로덕션 추적 데이터, 맞춤 평가를 결합해 시간이 갈수록 정확도가 개선되는 Codex 기반 Tax AI를 구축했다.

Building self-improving tax agents with Codex 관련 대표 이미지

🖼️ 인포그래픽

Building self-improving tax agents with Codex 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

Building self-improving tax agents with Codex 내용을 설명하는 본문 이미지

💡 한 줄 요약

OpenAI와 Thrive Holdings는 Crete 회계사들의 실제 세무 업무, 전문가 피드백, 프로덕션 추적 데이터, 맞춤 평가를 결합해 시간이 갈수록 정확도가 개선되는 Codex 기반 Tax AI를 구축했다.

📌 핵심 요약

  • Tax AI는 Crete의 30개 이상 회계법인 네트워크와 함께 1040 및 1041 세금 신고서 작성 업무를 자동화하기 위해 개발되었으며, 파일과 고객별 메모를 입력받아 검토 가능한 세무 엔진 제출물을 생성한다.
  • 파일럿 기간 동안 Tax AI는 7,000건의 세금 신고서를 처리했고, 세무 준비 시간의 약 3분의 1을 절감했으며, 최대 97% 정확도의 초안을 만들고 처리량을 약 50% 높이는 성과를 냈다.
  • 초기에는 W-2와 1099처럼 비교적 단순한 업무를 다뤘지만, 시즌이 진행되며 K-1, 임대 부동산 스케줄, 여러 소스 파일 간 조정이 필요한 복잡한 신고 업무로 확장되었다.
  • 핵심 개선 구조는 실무자 피드백, 입력부터 최종 제출까지 이어지는 프로덕션 추적 데이터, 맞춤 평가를 기반으로 한 Codex 중심 반복 루프의 세 축으로 설명된다.
  • Tax AI의 자기개선은 모든 수정사항을 자동으로 개발 과제로 바꾸는 방식이 아니라, 반복되는 차이를 검토하고 실행 가능한 발견으로 묶은 뒤 명확한 성공 조건을 가진 제한된 엔지니어링 과제로 전환하는 방식으로 작동한다.

🧩 주요 포인트

  1. Tax AI는 Crete의 30개 이상 회계법인 네트워크와 함께 1040 및 1041 세금 신고서 작성 업무를 자동화하기 위해 개발되었으며, 파일과 고객별 메모를 입력받아 검토 가능한 세무 엔진 제출물을 생성한다.
  2. 파일럿 기간 동안 Tax AI는 7,000건의 세금 신고서를 처리했고, 세무 준비 시간의 약 3분의 1을 절감했으며, 최대 97% 정확도의 초안을 만들고 처리량을 약 50% 높이는 성과를 냈다.
  3. 초기에는 W-2와 1099처럼 비교적 단순한 업무를 다뤘지만, 시즌이 진행되며 K-1, 임대 부동산 스케줄, 여러 소스 파일 간 조정이 필요한 복잡한 신고 업무로 확장되었다.
  4. 핵심 개선 구조는 실무자 피드백, 입력부터 최종 제출까지 이어지는 프로덕션 추적 데이터, 맞춤 평가를 기반으로 한 Codex 중심 반복 루프의 세 축으로 설명된다.
  5. Tax AI의 자기개선은 모든 수정사항을 자동으로 개발 과제로 바꾸는 방식이 아니라, 반복되는 차이를 검토하고 실행 가능한 발견으로 묶은 뒤 명확한 성공 조건을 가진 제한된 엔지니어링 과제로 전환하는 방식으로 작동한다.

🧠 상세 정리

1. 현실의 프로덕션 문제와 느린 수동 개선 루프

원문은 실제 시스템이 실험실 환경과 프로덕션 환경에서 다르게 작동한다는 문제의식에서 출발한다. 배포 전에는 예상하기 어려운 방식으로 시스템이 깨지고, 팀은 출시 이후에야 엣지 케이스를 발견하는 경우가 많다. 기존 방식에서는 엔지니어가 실패 사례를 조사하고 프롬프트를 조정하며 프로덕션 피드백을 제품 개선으로 번역해야 했기 때문에 반복 속도가 느렸다. 개선은 엔지니어가 직접 다음 단계를 밀어붙일 때만 진행되었고, 생산 현장에서 발생한 신호가 곧바로 구조화된 학습 재료가 되지는 못했다. 글은 평가 인프라, 실무자 접근성, 실제 환경, Codex의 에이전트 역량을 결합하면 이런 병목을 줄이고 스스로 개선되는 에이전트를 만들 수 있다고 제시한다.

2. Crete 회계 업무에서 출발한 Tax AI 개발 배경

OpenAI의 현장 배치 엔지니어와 연구자, Thrive Holdings의 엔지니어들은 지난 6개월 동안 Crete의 30개 이상 회계법인 네트워크와 함께 Tax AI를 개발했다. Crete 실무자들은 매 세무 시즌마다 수만 건의 세금 신고서를 준비하며, 그 과정에서 수백만 개의 기초 문서를 다룬다. 중간 이상 복잡도의 신고에서는 데이터 입력만으로도 한 건당 여덟 시간이 걸릴 수 있고, 지저분한 데이터 소스, 전년도 문서, 수동 추출과 계산이 함께 얽힌다. 실무자들은 가장 바쁜 세무 시즌에 세금 신고서 준비가 큰 병목이라고 지적했고, Tax AI는 이 병목을 줄이기 위한 제품으로 설계되었다.

3. 파일럿 성과와 실무 효율 개선

Tax AI는 이번 세무 시즌 파일럿에 참여한 Crete 회계법인들에서 7,000건의 세금 신고서를 처리했다. 시스템은 1040 및 1041 신고서 준비 과정에서 시간이 많이 드는 상당 부분을 자동화했으며, 실무자가 업로드한 원천 파일과 고객별 메모를 바탕으로 검토 가능한 세무 엔진 제출물을 만든다. 원문은 Tax AI가 세무 준비 시간의 약 3분의 1을 절약하고, 최대 97% 정확도의 신고서 초안을 만들며, 처리량을 약 50% 증가시킨다고 설명한다. 중요한 점은 단순한 효율 향상을 넘어, 최초 배포된 버전보다 3개월 뒤의 시스템이 측정 가능하게 더 좋아졌다는 데 있다.

4. 정확도 측정 방식과 빠른 성능 향상

Tax AI의 개선은 신고서가 나중에 수정 없이 얼마나 정확히 완성되는지를 통해 정량화되었다. 원문은 정확도를 75%, 90%, 100%의 필드 완성 기준에 도달한 신고서 비율로 측정한다고 설명한다. 출시 시점에는 75% 이상 정확한 필드 완성에 도달한 신고서가 4분의 1에 불과했지만, 6주 안에 그 비율은 86%까지 상승했다. 90%와 100% 정확도 기준에서도 더 빠른 성장세가 나타났다고 되어 있다. 이러한 기준은 각 신고서가 이후 실무자의 후속 검토와 수정 작업을 얼마나 필요로 하는지 보여주는 실용적인 지표로 사용되었다.

5. 단순 업무에서 복잡한 신고 업무로의 확장

초기 Tax AI는 W-2와 1099처럼 상대적으로 단순한 세무 문서와 업무를 처리했다. 그러나 세무 시즌이 진행되면서 K-1, 스케줄, 더 어려운 엣지 케이스가 포함된 복잡한 신고서로 범위를 넓혔다. 특히 임대 부동산 스케줄이나 여러 원천 파일 사이에서 값을 조정해야 하는 양식은 제품이 복잡한 프로덕션 실패를 볼 수 있고, 이해할 수 있으며, 실행 가능한 개선 대상으로 바꿀 수 있는지를 시험하는 사례였다. 원문은 새 기능이 추가될수록 건당 절감 시간이 더 커졌다고 설명한다. 그 이유는 시스템이 점차 수동으로 처리하기 더 어렵고 시간이 오래 걸리는 업무를 맡게 되었기 때문이다.

6. 자기개선을 가능하게 한 세 가지 설계 축

글은 Tax AI가 자기개선형 시스템으로 작동하기 위해 세 가지 핵심 축에 의존한다고 설명한다. 첫째는 실무자와 가까이 머무는 것으로, 실제 업무를 수행하는 사람들이 어떤 오류가 중요한지, 다음에 어떤 워크플로를 개선해야 하는지 판단하도록 하는 것이다. 둘째는 프로덕션이 증거를 만들도록 제품을 설계하는 것으로, 단순한 입력과 출력뿐 아니라 원천 자료, 추출 필드, 근거, 세무 엔진 제출, 전문가 수정까지의 경로를 기록해야 한다. 셋째는 Codex 기반 개선 루프로, 구조화된 프로덕션 이슈를 발견, 맞춤 평가, 제한된 엔지니어링 작업으로 전환해 수동 반복보다 빠르게 제품을 개선하는 방식이다.

7. 임대 부동산 사례: 실무자 수정에서 평가 대상으로

원문은 임대 부동산 소득이 개인 세금 신고서의 Schedule E에 보고된다는 사례를 통해 개선 루프를 설명한다. 공학적으로는 임대 부동산 필드를 추출하는 일이 간단해 보일 수 있지만, 실제로는 손글씨 메모, 이메일, 스프레드시트, 고객 파일 등 지저분한 자료를 읽고 세무 엔진에 자신 있게 매핑할 수 있는 값을 찾아야 한다. 동시에 실무자가 결과를 승인하거나 수정할 수 있도록 충분한 근거도 보존해야 한다. Tax AI가 예측한 값과 실제 신고서 값이 다를 때, 그것이 추출 실패인지, 실무자 선호인지, 전년도 값의 이월인지, 다른 워크플로 단계의 변경인지 구분하는 일이 중요했다. 실무자들은 이런 차이를 판별해 어떤 사례가 실제 개선 대상인지 가려내는 데 기여했다.

8. 프로덕션 추적 데이터와 Codex의 제한된 작업 환경

Tax AI는 문서가 정리·분할·분류되고, 임대 부동산 필드가 원천 자료 인용과 함께 추출되며, 그 값이 세무 엔진으로 매핑되고, 실무자가 신고 전 수정하는 전체 경로를 보존한다. 이런 제품 수준의 추적 데이터 덕분에 실패가 어느 지점에서 발생했는지 조사할 수 있다. 예를 들어 평가 파이프라인이 Tax AI가 ‘fair rental days’ 필드를 반복적으로 놓치고 실무자가 일관되게 채워 넣는다고 표시하면, 이 발견은 대표 소스 패키지와 기대 출력이 포함된 목표 평가 세트로 포장된다. Codex는 최종 출력만 보는 것이 아니라 추적 데이터, 평가, 저장소, 스킬을 함께 검토해 원인을 조사하고 후보 변경을 제안하며, 목표 평가와 회귀 평가를 통해 검증할 수 있다.

9. 자동화의 범위와 인간의 역할

원문은 모든 실무자 수정이 자동으로 Codex 과제가 되는 것은 아니라고 강조한다. 수정은 추출 실패, 매핑 문제, 아직 지원되지 않는 제품 동작, 세무 판단, 정상적인 워크플로 노이즈 등 여러 원인을 가질 수 있다. 반복되는 차이가 검토되고 실행 가능한 발견으로 묶인 뒤에야 명확한 성공 조건을 가진 제한된 과제로 바뀐다. 자동화가 적용되는 영역도 제품 전체가 아니라 원천 문서를 세무 워크플로로 추출하고 매핑하는 제한된 계층이다. 엔지니어는 여전히 아키텍처, 제품 결정, 출시를 책임지고, 실무자는 추출값 수정, 신고서 검토, 최종 제출 승인이라는 기존 업무를 통해 개선 루프를 이끈다.

10. 재사용 가능한 패턴과 다른 복잡 업무로의 확장

임대 부동산 사례는 프로덕션 산출물과 추적 데이터를 활용해 에이전트 역량을 개선하는 더 넓은 패턴을 보여준다. 검토된 프로덕션 발견, 원천 추적, 기대 세무 엔진 출력, 관련 코드 예시, 평가 명령이 입력으로 제공되면 Codex는 몇 주 또는 몇 달에 걸쳐 성능과 정확도를 실질적으로 높이는 데 기여할 수 있다. 원문은 임대 부동산 기능이 90%의 정밀도와 재현율에 도달하기까지 약 6주와 상당한 엔지니어링 감독이 필요했다고 설명한다. 그러나 그 과정에서 재사용 가능한 추상화, 리뷰 산출물, 평가 관례, 구현 패턴이 만들어졌고, 이는 Schedule C나 Schedule A처럼 비슷하게 복잡한 스케줄을 지원하는 데 도움이 되었다.

🧾 핵심 주장 / 시사점

  • 이 사례의 핵심은 ‘모델이 스스로 좋아진다’는 표현보다, 실무자의 수정 행위와 제품 추적 데이터를 평가 가능한 증거로 바꾸는 제품 설계가 먼저라는 점이다.
  • Tax AI의 개선 루프는 완전 자동화가 아니라 제한된 자동화와 인간 검토의 결합이다. 실무자는 어떤 차이가 의미 있는 오류인지 판별하고, 엔지니어는 구조와 출시 결정을 책임지며, Codex는 명확히 정의된 작업과 검증 게이트 안에서 속도를 높인다.
  • 복잡한 전문 영역에서 에이전트를 개선하려면 최종 답변의 품질만 보는 것으로는 부족하다. 원천 문서, 중간 추출값, 근거, 매핑, 전문가 수정, 최종 제출 결과까지 연결된 추적성이 있어야 반복되는 실패를 실제 개선 과제로 전환할 수 있다.

✅ 액션 아이템

  • 원문에서 강조한 핵심 변화와 이해관계자를 기준으로 Building self-improving tax agents with Codex의 영향을 정리한다.
  • 다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
  • 기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
  • 후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.

❓ 열린 질문

  • OpenAI launches new Codex tools for white collar work TechCrunch]]" "210. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
  • AI Doesn’t Live in Text Alone" "581. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
  • Customer Ignite Talk Antonio Bravo Acin (Global Head of AI Transformation, BBVA) & OpenAI" "187. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
  • Why Apple's slow and steady AI bet is starting to look pretty smart TechCrunch" "[[105. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?

관련 문서

공통 태그와 주제 흐름을 기준으로 같이 보면 좋은 문서를 이어서 제안합니다.