ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration

🖼️ 인포그래픽

ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

ScarfBench는 기업용 자바 애플리케이션의 프레임워크 마이그레이션에서 AI 코딩 에이전트가 실제로 빌드·배포·동작 보존까지 해내는지를 평가하는 공개 벤치마크입니다.

📌 핵심 요약

기업 애플리케이션 현대화는 유지보수성, 클라우드 준비도, 개발 생산성, 최신 기능 활용을 위해 필요하지만 규모가 크고 비용이 많이 드는 소프트웨어 공학 과제입니다.
ScarfBench는 Spring, Jakarta EE, Quarkus 사이의 기업용 자바 프레임워크 마이그레이션을 대상으로 하며, 단순 코드 생성 비교가 아니라 애플리케이션이 실제로 빌드되고 배포되며 기존 동작을 보존하는지를 검증합니다.
벤치마크는 34개 애플리케이션, 102개 프레임워크 구현, 204개 마이그레이션 과제, 약 15만 1천 줄의 코드, 약 2천 개의 소스·테스트 파일, 1,331개의 전문가 작성 테스트로 구성됩니다.
최신 코딩 에이전트들도 ScarfBench에서 낮은 행동 검증 성공률을 보였으며, 가장 강한 에이전트조차 10% 미만의 행동 성공률에 머물러 빌드 가능한 코드와 실제 동작 보존 사이의 격차가 드러났습니다.
분석 결과 에이전트는 완료 여부를 과신하고, 구성·웹·데이터베이스·서비스 계층을 반복적으로 오가며, 도커 캐시·포트 연결·메이븐 래퍼 같은 환경 및 도구 문제에도 자주 막히는 것으로 나타났습니다.

🧩 주요 포인트

기업 애플리케이션 현대화는 유지보수성, 클라우드 준비도, 개발 생산성, 최신 기능 활용을 위해 필요하지만 규모가 크고 비용이 많이 드는 소프트웨어 공학 과제입니다.
ScarfBench는 Spring, Jakarta EE, Quarkus 사이의 기업용 자바 프레임워크 마이그레이션을 대상으로 하며, 단순 코드 생성 비교가 아니라 애플리케이션이 실제로 빌드되고 배포되며 기존 동작을 보존하는지를 검증합니다.
벤치마크는 34개 애플리케이션, 102개 프레임워크 구현, 204개 마이그레이션 과제, 약 15만 1천 줄의 코드, 약 2천 개의 소스·테스트 파일, 1,331개의 전문가 작성 테스트로 구성됩니다.
최신 코딩 에이전트들도 ScarfBench에서 낮은 행동 검증 성공률을 보였으며, 가장 강한 에이전트조차 10% 미만의 행동 성공률에 머물러 빌드 가능한 코드와 실제 동작 보존 사이의 격차가 드러났습니다.
분석 결과 에이전트는 완료 여부를 과신하고, 구성·웹·데이터베이스·서비스 계층을 반복적으로 오가며, 도커 캐시·포트 연결·메이븐 래퍼 같은 환경 및 도구 문제에도 자주 막히는 것으로 나타났습니다.

🧠 상세 정리

1. 기업용 자바 현대화와 평가 공백

글은 기업 애플리케이션 현대화가 조직에서 수행하는 가장 크고 비싼 소프트웨어 공학 활동 중 하나라는 문제의식에서 출발합니다. 애플리케이션을 다른 프레임워크로 옮기는 이유는 유지보수성 개선, 클라우드 준비도 향상, 개발자 생산성 증대, 현대적 기능 접근성 확보입니다. 최근 코딩 에이전트의 발전으로 AI가 이런 현대화를 도울 수 있다는 기대가 커졌지만, 실제 기업 애플리케이션을 안정적으로 현대화할 수 있는지는 별도의 질문으로 남아 있습니다. 기존 벤치마크는 버그 수정이나 코드 생성에서는 성과를 보여 주었지만, 프레임워크 마이그레이션의 복합성을 충분히 측정하지 못한다는 점이 글의 출발점입니다.

2. ScarfBench의 목적과 평가 방식

ScarfBench는 Self-Contained Application Refactoring Benchmark의 약자로, 기업용 자바의 교차 프레임워크 마이그레이션 과제에서 AI 에이전트를 평가하기 위한 공개 벤치마크입니다. 대상 생태계는 Spring, Jakarta EE, Quarkus 세 가지이며, 단순히 생성된 코드가 기준 구현과 비슷한지를 비교하지 않습니다. 대신 마이그레이션된 애플리케이션이 성공적으로 빌드되고, 올바르게 배포되며, 행동 검증을 통과하는지를 봅니다. 이 방식은 코드 번역 자체보다 실제 현대화 품질을 더 현실적으로 측정하려는 접근입니다.

3. 프레임워크 마이그레이션이 어려운 이유

글은 프레임워크 마이그레이션이 주석을 바꾸는 수준의 작업이 아니라고 강조합니다. 간단해 보이는 저장소 하나를 옮기더라도 의존성 주입, 영속성 설정, 쿼리, 프레임워크 디스크립터 등 여러 부분을 함께 수정해야 할 수 있습니다. 이 중 하나라도 작은 실수가 있으면 배포 자체가 실패할 수 있습니다. 따라서 성공적인 마이그레이션에는 소스 코드 변환뿐 아니라 프레임워크 의미론을 이해하고, 빌드 시스템을 조정하며, 런타임 의존성까지 다루는 능력이 필요합니다.

4. 벤치마크 구성과 규모

ScarfBench는 JSR 기반의 기업용 자바 분류 체계에서 출발해 전문가 마이그레이션을 통해 Spring, Jakarta EE, Quarkus 전반의 검증된 구현을 만든 구조입니다. 전체 규모는 34개 애플리케이션, 102개 프레임워크 구현, 204개 마이그레이션 과제로 제시됩니다. 코드 규모는 약 15만 1천 줄이며, 소스와 테스트 파일은 약 2천 개, 전문가가 작성한 테스트는 1,331개입니다. 또한 벤치마크에는 특정 부분에 초점을 맞춘 마이그레이션 과제와 전체 애플리케이션 마이그레이션이 모두 포함되어 있어, 작은 변환과 종단 간 현대화 난이도를 함께 볼 수 있습니다.

5. 최신 에이전트의 성능과 검증 격차

여러 최신 코딩 에이전트를 ScarfBench에서 평가한 결과, 전통적인 소프트웨어 공학 벤치마크에서 강한 성능을 보인 에이전트들도 프레임워크 마이그레이션에서는 어려움을 겪었습니다. 성공률은 프레임워크 쌍에 따라 크게 달랐고, 전체 애플리케이션 마이그레이션은 특히 어려웠습니다. 글은 가장 강한 현재 에이전트도 행동 성공률이 10% 미만이라고 설명하며, 컴파일 가능한 코드를 만드는 것과 기존 애플리케이션 동작을 보존하는 것은 다른 문제임을 보여 줍니다. 또한 컴파일 성공률은 배포 성공률보다 높고, 배포 성공률은 행동 성공률보다 높아 빌드 성공만으로 마이그레이션 품질을 판단하면 과대평가가 발생합니다.

6. 에이전트 행동 분석과 핵심 교훈

ScarfBench는 단순 성공률뿐 아니라 에이전트가 현대화 과정에서 어떻게 행동하는지도 보여 줍니다. 예를 들어 Claude Code는 전체 애플리케이션 30개 중 29개에서 빌드가 성공했다고 보고했지만, 독립 검증 결과 실제로 빌드된 것은 22개였고, 실패로 분류한 1개는 오히려 정상 빌드되었습니다. 계층 방문 분석에서는 구성, 웹, 데이터베이스, 서비스 계층이 자주 등장했고, 구성과 웹 또는 서비스와 데이터베이스 사이를 오가는 전환이 많아 마이그레이션이 선형 변환이 아니라 반복적 의존성 해결 과정임을 시사합니다. 특히 구성 관련 아티팩트가 반복 방문의 중심이었고, 도커 캐시 불일치, 포트 연결 문제, 메이븐 래퍼와 빌드 도구 문제 같은 환경 요인도 검증을 지연시켰습니다.

🧾 핵심 주장 / 시사점

AI 에이전트의 자체 완료 보고는 신뢰 가능한 품질 신호가 아니며, 독립적인 빌드·배포·테스트 검증이 반드시 필요합니다.
기업용 프레임워크 현대화의 핵심 난점은 자바 코드 번역 자체보다 구성, 인프라, 런타임 의존성이 얽힌 구조를 관리하는 데 있습니다.
ScarfBench는 연구자에게는 에이전트 구조와 기법을 비교할 표준 과제를, 실무자에게는 현대화 솔루션을 운영 환경에 투입하기 전 검증할 수 있는 현실적인 평가 기준을 제공합니다.