ai-agent-evaluation 태그 문서 4개

Tag4건Article 4

이 태그와 연결된 문서를 한곳에서 모아보고, 함께 자주 등장하는 연관 태그까지 이어서 탐색할 수 있습니다.

연관 태그

Agent EvalKit은 최종 응답만 보는 평가의 한계를 넘어, AI 에이전트의 도구 호출·중간 상태·근거 충실성까지 추적해 코드 수준 개선으로 연결하는 오픈소스 평가 도구입니다.

OpenAI와 Thrive Holdings는 Crete 회계사들의 실제 세무 업무, 전문가 피드백, 프로덕션 추적 데이터, 맞춤 평가를 결합해 시간이 갈수록 정확도가 개선되는 Codex 기반 Tax AI를 구축했다.

FutureBench는 AI 에이전트가 과거 지식 암기나 고정 벤치마크 풀이를 넘어, 실제 미래 사건을 정보 수집·종합·확률적 추론으로 예측할 수 있는지 평가하려는 벤치마크다.

OpenAI의 BrowseComp는 웹 탐색 에이전트가 찾기 어렵지만 검증 가능한 정보를 얼마나 끈기 있고 전략적으로 찾아내는지 평가하기 위한 1,266문항 규모의 고난도 벤치마크다.