Back to The Future: Evaluating AI Agents on Predicting Future Events

🖼️ 인포그래픽

Back to The Future: Evaluating AI Agents on Predicting Future Events 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

FutureBench는 AI 에이전트가 과거 지식 암기나 고정 벤치마크 풀이를 넘어, 실제 미래 사건을 정보 수집·종합·확률적 추론으로 예측할 수 있는지 평가하려는 벤치마크다.

📌 핵심 요약

글은 기존 AI 벤치마크가 주로 과거 지식, 이미 해결된 문제, 고정된 테스트셋에 의존한다는 한계를 지적하며, 더 가치 있는 AI는 과거 정보를 활용해 미래를 예측하는 능력으로 구분되어야 한다고 주장한다.
미래 사건 예측은 단순 검색이나 패턴 매칭이 아니라 정보 탐색, 복잡한 데이터 종합, 확률 판단, 인과관계 추론을 요구하기 때문에 실제 세계에서 유용한 지능을 평가하는 데 적합하다고 설명한다.
FutureBench는 뉴스 기사와 Polymarket 같은 예측시장 데이터를 활용해 의미 있고 검증 가능하며 불확실성이 있는 미래 사건 질문을 만들고, 시간이 지난 뒤 실제 결과로 모델의 예측 성능을 확인한다.
이 벤치마크는 프레임워크 비교, 도구 성능 비교, 모델 능력 비교라는 세 단계로 구성되어 에이전트 파이프라인의 어느 부분이 성능 차이를 만드는지 분리해 측정할 수 있게 설계되었다.
초기 결과에서는 도구를 사용하는 에이전트형 모델이 인터넷 접근 없는 기본 언어모델보다 더 나은 경향을 보였고, GPT-4.1, Claude 계열, DeepSeekV3가 정보 수집 방식과 추론 구조에서 서로 다른 패턴을 보였다.

🧩 주요 포인트

글은 기존 AI 벤치마크가 주로 과거 지식, 이미 해결된 문제, 고정된 테스트셋에 의존한다는 한계를 지적하며, 더 가치 있는 AI는 과거 정보를 활용해 미래를 예측하는 능력으로 구분되어야 한다고 주장한다.
미래 사건 예측은 단순 검색이나 패턴 매칭이 아니라 정보 탐색, 복잡한 데이터 종합, 확률 판단, 인과관계 추론을 요구하기 때문에 실제 세계에서 유용한 지능을 평가하는 데 적합하다고 설명한다.
FutureBench는 뉴스 기사와 Polymarket 같은 예측시장 데이터를 활용해 의미 있고 검증 가능하며 불확실성이 있는 미래 사건 질문을 만들고, 시간이 지난 뒤 실제 결과로 모델의 예측 성능을 확인한다.
이 벤치마크는 프레임워크 비교, 도구 성능 비교, 모델 능력 비교라는 세 단계로 구성되어 에이전트 파이프라인의 어느 부분이 성능 차이를 만드는지 분리해 측정할 수 있게 설계되었다.
초기 결과에서는 도구를 사용하는 에이전트형 모델이 인터넷 접근 없는 기본 언어모델보다 더 나은 경향을 보였고, GPT-4.1, Claude 계열, DeepSeekV3가 정보 수집 방식과 추론 구조에서 서로 다른 패턴을 보였다.

🧠 상세 정리

1. 기존 벤치마크의 한계와 미래 예측 평가의 문제의식

글은 대부분의 현재 AI 벤치마크가 과거에 관한 질문을 푸는 방식으로 구성되어 있다고 출발한다. HLE나 GPQA처럼 정적인 기존 지식을 묻거나, BrowseComp와 GAIA처럼 보강된 방식으로 과거 정보를 찾게 하거나, PaperBench와 DABStep 및 많은 코딩 평가처럼 이미 해결된 문제를 다루는 경우가 많다는 것이다. 저자들은 이런 방식만으로는 더 가치 있는 AI, 나아가 AGI에 가까운 능력을 충분히 구분하기 어렵다고 본다. 핵심 주장은 지능적인 시스템은 단지 오래된 사실을 암송하는 것이 아니라, 과거와 현재의 정보를 바탕으로 미래의 중요한 양상을 예측할 수 있어야 한다는 데 있다.

2. 미래 예측이 더 종합적인 지능을 요구하는 이유

미래 사건 예측은 단순한 정답 검색이나 훈련 데이터의 기억만으로 해결하기 어려운 과제다. 글은 예측이 정교한 추론, 여러 정보의 종합, 확률의 저울질, 실제 이해를 요구한다고 설명한다. 과학, 경제, 지정학, 기술 같은 영역에서 앞으로 어떤 일이 일어날지 판단하려면 현재의 신호들을 연결하고 인과관계를 따져야 한다. 따라서 예측 능력을 평가하는 일은 현실에서 가치를 만드는 지능, 즉 정보 수집과 분석을 통해 의사결정을 돕는 능력을 측정하는 방식으로 제시된다.

3. 오염 문제와 검증 가능성을 동시에 해결하는 평가 방식

저자들은 미래 예측 기반 평가가 기존 벤치마크의 방법론적 문제도 완화한다고 강조한다. 고정된 테스트셋의 정확도를 재는 전통적 방식은 데이터 오염 가능성에서 자유롭기 어렵고, 모델의 전체 훈련 파이프라인을 재현할 수 없으면 결과를 신뢰하기 힘들다. 그래서 일부 평가에서는 테스트셋을 비공개로 유지하지만, 이는 평가자와 리더보드를 게임하려는 시도 사이의 군비 경쟁을 낳는다고 지적한다. 반면 미래 데이터는 아직 존재하지 않으므로 설계상 훈련 데이터에 포함될 수 없고, 시간이 지나면 실제 결과로 누가 맞았는지 확인할 수 있어 객관적이고 타임스탬프가 있는 성능 측정이 가능하다.

4. FutureBench의 목표와 질문 수집 방식

FutureBench는 실제 예측시장과 새로 등장하는 뉴스에서 미래 사건 예측 과제를 추출하는 벤치마크로 소개된다. 이 벤치마크는 플랫폼, 실시간 뉴스 보도, Manifold 시장 등에서 이벤트를 모으고, 예측할 가치가 있는 새 사건에 초점을 맞추도록 필터링한다. 목표는 단순한 패턴 매칭이 아니라 진짜 추론을 요구하는 시나리오를 구성하는 것이다. 예시는 지정학적 전개, 시장 움직임, 기술 채택 흐름처럼 정보에 기반한 분석이 실제로 의미를 갖는 사건들이다.

5. 뉴스 기반 질문 생성 파이프라인

첫 번째 질문 생성 방식은 현재 뉴스를 활용해 가까운 미래의 예측 기회를 찾는 것이다. 저자들은 smolagents 기반 에이전트를 사용해 주요 뉴스 웹사이트 일부를 스크래핑하고, 전면 기사들을 분석한 뒤 그 결과가 어떻게 될지에 관한 구체적이고 시간 제한이 있는 질문을 만들게 한다. 예를 들어 “연방준비제도가 2025년 7월 1일까지 금리를 최소 0.25% 인하할 것인가?” 같은 질문이 생성된다. 이 과정에는 좋은 예측 질문의 조건, 즉 의미 있고 검증 가능하며 추출 시점에 불확실해야 한다는 기준을 담은 프롬프트가 사용된다. 기술적으로는 질문 생성과 추론에 DeepSeek-V3, 콘텐츠 추출에 Firecrawl, 필요할 때 추가 맥락 검색에 Tavily가 쓰이며, 한 번의 스크래핑 세션에서 보통 5개의 질문을 생성하고 약 1주일 뒤 답을 알 수 있는 시간 범위를 둔다.

6. Polymarket 통합과 예측시장 데이터의 활용

두 번째 질문 출처는 실제 참여자들이 미래 사건에 대해 예측을 거는 Polymarket이다. 저자들은 현재 주당 약 8개의 질문을 수집한다고 밝히지만, 원시 데이터가 그대로 벤치마크에 적합한 것은 아니라고 설명한다. 온도와 관련된 일반 질문이나 주식·암호화폐 시장 관련 질문이 너무 많아질 수 있기 때문에 강한 필터링을 적용한다. Polymarket 질문은 뉴스 생성 질문보다 결과가 확정되는 시간이 덜 제한적이라는 특징도 있다. 어떤 사건의 실제 결과는 다음 달이나 연말에야 확인될 수 있으므로 여전히 중요한 질문이지만, 결과 수집은 더 드문드문 이루어진다.

7. 세 단계 평가 구조: 프레임워크, 도구, 모델

FutureBench는 성능 차이가 어디에서 발생하는지 분리해 보기 위해 세 단계의 체계적 평가 구조를 제안한다. 첫 번째는 기본 LLM과 도구를 고정한 채 LangChain 기반 에이전트와 CrewAI 기반 에이전트처럼 프레임워크만 바꾸어 비교하는 방식이다. 두 번째는 LLM과 프레임워크를 고정하고 Tavily, Google, Bing 같은 검색 도구나 도구 사용 자체가 예측 성능에 어떤 영향을 주는지 비교하는 방식이다. 세 번째는 프레임워크와 도구를 고정한 뒤 서로 다른 LLM이 같은 조건에서 도구를 얼마나 효과적으로 활용하는지 보는 방식이다. 이 구조는 에이전트 파이프라인의 어느 구성요소가 성능 향상 또는 손실을 만드는지 더 정확히 이해하게 해준다.

8. 초기 결과와 모델별 정보 수집 패턴

초기 실험에서는 smolagents를 기본 에이전트 프레임워크로 사용하고, 예측 과제에 Tavily 검색과 간단한 웹 스크래퍼를 제공했다. 저자들은 인터넷 접근이 없는 표준 언어모델도 함께 실행해 일반적인 사전 추정 능력을 비교했으며, 예상대로 에이전트형 모델이 단순 언어모델보다 더 좋은 성능을 보였고 강한 모델일수록 예측 품질이 더 안정적이었다고 말한다. 흥미롭게도 모델마다 정보 수집 전략이 달랐다. GPT-4.1은 검색 결과에 더 의존하는 경향을 보였고, Claude 3.7과 Claude 4는 웹 공간을 더 자세히 탐색하며 스크래핑을 더 자주 사용했지만 그만큼 입력 토큰과 비용도 증가했다.

9. 인플레이션 예측 사례에서 드러난 추론 차이

글은 “6월에 연간 인플레이션이 2.6 이상으로 증가할 것인가?”라는 질문을 통해 모델별 추론 방식을 비교한다. DeepSeekV3는 최근 CPI 데이터를 검색해 현재 인플레이션이 2.4~2.8% 범위에 있음을 확인하고, 관세의 상승 압력을 고려해 기준치를 넘을 것이라고 결론냈다. Claude 3.7은 11번의 검색으로 더 포괄적인 조사를 수행하며 2025년 5월 CPI가 전년 대비 2.4%였고 월간 추세가 0.2%에서 0.1%로 둔화되었다는 점, 관세 압력과 연준의 제한적 정책을 함께 따진 뒤 2.6%에 도달하기 어렵다고 판단했다. GPT-4.1은 시장 컨센서스와 전망을 중심 신호로 삼아 5월 CPI가 기대보다 낮았고 6월에 2.6% 이상을 예측한 전망이 없다는 점에서 상승 가능성이 낮다고 결론냈다.

10. 벤치마크가 드러내는 에이전트 평가의 추가 의미

FutureBench는 단순히 예측이 맞았는지만 보는 평가가 아니라, 에이전트가 복잡한 지시를 얼마나 잘 따르고 실행 가능한 형식으로 행동을 생성하는지도 드러낸다. 글은 실제로 이 과정에서 작은 언어모델이 복잡한 다단계 추론에서 어려움을 겪는 지점이 드러난다고 설명한다. 또한 Claude가 미국 노동통계국 웹사이트에 직접 접근해 스크래핑하려 했지만 .gov 웹사이트 접근을 허용하지 않아 실패했다는 사례처럼, 도구 사용 정책과 에이전트 행동의 상호작용도 관찰된다. 결과적으로 FutureBench는 정보 수집 전략, 비용, 형식 준수, 도구 활용 능력, 추론 구조를 실제 미래 결과와 연결해 평가하려는 시도로 정리된다.

🧾 핵심 주장 / 시사점

FutureBench의 핵심 장점은 아직 존재하지 않는 미래 데이터를 평가 대상으로 삼아 데이터 오염과 암기 기반 성능 부풀리기를 구조적으로 줄인다는 점이다.
같은 질문에서도 모델들은 검색 중심, 직접 스크래핑 중심, 컨센서스 전망 중심, 정량적 격차 분석 중심 등 서로 다른 예측 전략을 보였고, 이는 단순 정확도 외에 에이전트의 작동 방식을 분석할 수 있게 한다.
도구를 많이 쓰는 접근은 더 풍부한 맥락을 얻을 수 있지만 토큰과 비용이 늘어나며, 벤치마크는 성능뿐 아니라 정보 수집의 효율성과 전략성까지 함께 평가하는 방향을 제시한다.