BrowseComp: a benchmark for browsing agents

🖼️ 인포그래픽

BrowseComp: a benchmark for browsing agents 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

OpenAI의 BrowseComp는 웹 탐색 에이전트가 찾기 어렵지만 검증 가능한 정보를 얼마나 끈기 있고 전략적으로 찾아내는지 평가하기 위한 1,266문항 규모의 고난도 벤치마크다.

📌 핵심 요약

BrowseComp는 기존 SimpleQA처럼 단순 사실 검색을 측정하는 벤치마크가 빠른 브라우징 도구를 가진 모델에 의해 포화되고 있다는 문제의식에서 출발했다. OpenAI는 웹의 여러 출처를 깊게 탐색해야 찾을 수 있는 얽힌 정보를 대상으로, 짧고 단일한 정답을 요구하는 1,266개의 문제를 공개했다.
문항 제작자는 먼저 특정 사실을 정한 뒤, 그 사실을 직접 검색하기 어렵게 만드는 여러 조건을 조합하는 ‘역방향’ 방식으로 질문을 만들었다. 정답은 짧고 논란의 여지가 없어야 하며, 검색 결과 첫 페이지에 쉽게 드러나지 않고, 당시 모델들이 풀지 못하며, 사람도 10분 안에 풀기 어려운 수준이어야 했다.
BrowseComp는 실제 사용자 질의처럼 길고 열린 답변을 요구하지 않는다는 한계를 인정한다. 대신 짧은 정답 중심 설계를 통해 채점의 단순성과 재현성을 확보했고, 찾기는 어렵지만 확인은 쉬운 ‘검증의 비대칭성’을 벤치마크의 핵심 장점으로 삼았다.
인간 검증 캠페인에서도 데이터셋의 난도가 드러났다. 1,255개 문제 중 인간 트레이너가 해결한 문제는 367개, 즉 29.2%에 그쳤고, 해결된 문제 중 원래 기준 정답과 일치한 비율은 86.4%였다. 많은 미해결 문제는 약 두 시간의 탐색 뒤 포기된 것으로 보고됐다.
모델 평가에서는 GPT-4o, GPT-4.5, GPT-4o with browsing이 모두 매우 낮은 정확도를 보였고, OpenAI o1은 브라우징 없이도 더 높은 성능을 냈다. Deep Research는 약 절반의 문제를 풀며 크게 앞섰고, 추가 추론 시간과 여러 번의 시도 결과를 결합하는 방식은 성능을 더 끌어올렸다.

🧩 주요 포인트

BrowseComp는 기존 SimpleQA처럼 단순 사실 검색을 측정하는 벤치마크가 빠른 브라우징 도구를 가진 모델에 의해 포화되고 있다는 문제의식에서 출발했다. OpenAI는 웹의 여러 출처를 깊게 탐색해야 찾을 수 있는 얽힌 정보를 대상으로, 짧고 단일한 정답을 요구하는 1,266개의 문제를 공개했다.
문항 제작자는 먼저 특정 사실을 정한 뒤, 그 사실을 직접 검색하기 어렵게 만드는 여러 조건을 조합하는 ‘역방향’ 방식으로 질문을 만들었다. 정답은 짧고 논란의 여지가 없어야 하며, 검색 결과 첫 페이지에 쉽게 드러나지 않고, 당시 모델들이 풀지 못하며, 사람도 10분 안에 풀기 어려운 수준이어야 했다.
BrowseComp는 실제 사용자 질의처럼 길고 열린 답변을 요구하지 않는다는 한계를 인정한다. 대신 짧은 정답 중심 설계를 통해 채점의 단순성과 재현성을 확보했고, 찾기는 어렵지만 확인은 쉬운 ‘검증의 비대칭성’을 벤치마크의 핵심 장점으로 삼았다.
인간 검증 캠페인에서도 데이터셋의 난도가 드러났다. 1,255개 문제 중 인간 트레이너가 해결한 문제는 367개, 즉 29.2%에 그쳤고, 해결된 문제 중 원래 기준 정답과 일치한 비율은 86.4%였다. 많은 미해결 문제는 약 두 시간의 탐색 뒤 포기된 것으로 보고됐다.
모델 평가에서는 GPT-4o, GPT-4.5, GPT-4o with browsing이 모두 매우 낮은 정확도를 보였고, OpenAI o1은 브라우징 없이도 더 높은 성능을 냈다. Deep Research는 약 절반의 문제를 풀며 크게 앞섰고, 추가 추론 시간과 여러 번의 시도 결과를 결합하는 방식은 성능을 더 끌어올렸다.

🧠 상세 정리

1. 벤치마크가 필요한 배경

OpenAI는 인터넷을 탐색해 지식을 수집하는 AI 에이전트가 점점 더 유용하고 중요해지고 있다고 설명한다. 그러나 좋은 브라우징 에이전트는 단순히 웹에 접속하는 수준을 넘어, 수십 개 또는 수백 개의 웹사이트를 오가며 찾기 어려운 정보를 찾아낼 수 있어야 한다. 기존 SimpleQA 같은 벤치마크는 기본적이고 분리된 사실 검색 능력을 측정하지만, 빠른 브라우징 도구를 가진 모델에게는 이미 상당 부분 포화된 상태라고 제시된다. BrowseComp는 이런 한계를 보완하기 위해, 웹상에 흩어진 난해하고 얽힌 정보를 찾아내는 능력을 측정하는 새 평가 과제로 소개된다.

2. BrowseComp의 기본 설계

BrowseComp는 ‘Browsing Competition’의 약자로, 1,266개의 도전적인 문제로 구성된 벤치마크다. OpenAI는 이 벤치마크를 단순하면서도 모델에게 어렵고, 동시에 검증하기 쉬운 형태로 만들었다고 설명한다. 대형 언어 모델 평가는 보통 길고 열린 응답을 생성한다는 점 때문에 채점이 까다롭지만, BrowseComp는 짧고 원칙적으로 하나의 정답만 존재하는 질문에 집중한다. 이 설계는 실제 사용자 질의 분포처럼 모호하거나 긴 답변을 요구하는 상황을 완전히 반영하지는 못하지만, 채점이 간단해지고 누구나 쉽게 사용할 수 있다는 실용적 장점을 제공한다.

3. 질문 제작 방식과 난도 통제

문항 제작자는 OpenAI의 이전 사실성 벤치마크인 SimpleQA의 지침을 따라, 시간이 지나도 바뀌지 않고 증거로 뒷받침되며 단일하고 논쟁의 여지가 없는 짧은 정답을 가진 질문을 만들었다. BrowseComp의 차별점은 그 질문들이 매우 어렵도록 설계됐다는 데 있다. 트레이너는 GPT-4o의 브라우징 유무 버전, o1, 초기 Deep Research 모델이 문제를 풀지 못하는지 확인해야 했다. 또한 다섯 번의 단순 검색을 수행해 검색엔진 첫 페이지에 답이 나타나지 않는지 점검했고, 다른 사람이 10분 안에 풀기 어려운 수준이 되도록 요구받았다.

4. 역방향 질문과 검증의 비대칭성

BrowseComp의 핵심 제작 전략은 먼저 어떤 사실을 정한 뒤, 그 사실을 바로 찾기 어렵게 만드는 조건을 조합해 질문을 만드는 ‘역방향’ 방식이다. 예시로 제시된 문제는 특정 기간의 EMNLP 논문 중 제1저자와 제4저자의 학부 이력이 각각 특정 대학과 연결되는 논문 제목을 묻는다. 이런 질문은 정답을 알고 나면 몇 번의 웹 검색으로 확인할 수 있지만, 처음부터 찾으려면 수천 개 논문과 저자 배경을 조사해야 할 수 있다. OpenAI는 이처럼 찾기는 어렵지만 검증은 쉬운 ‘검증의 비대칭성’이 벤치마크에 적합하다고 본다.

5. 브라우징 능력으로 측정하려는 핵심 역량

BrowseComp는 단순한 형태에도 불구하고 유용한 브라우징 에이전트 능력의 핵심을 측정한다고 설명된다. 정답을 찾으려면 모델은 인터넷상의 콘텐츠가 사실인지 판단할 수 있어야 하고, 관련 없는 정보와 신뢰할 만한 단서를 구분해야 한다. 답이 쉽게 발견되지 않기 때문에 좋은 성능을 내려면 탐색의 깊이와 끈기가 필요하다. 또한 많은 문제는 단순 무차별 검색으로는 시간이 너무 오래 걸리거나 사실상 불가능하므로, 모델은 검색어를 창의적으로 바꾸고 중간 단서에 따라 탐색 경로를 전환할 수 있어야 한다.

6. 한계와 유용성의 균형

OpenAI는 BrowseComp가 실제 사용자 질의 전체를 대표하는 완전한 벤치마크는 아니라고 명확히 말한다. 실제 사용자는 긴 답변, 모호성 해소, 종합적 설명을 요구하는 경우가 많지만, BrowseComp는 이런 부분을 의도적으로 우회하고 짧은 정답 문제에 집중한다. 그럼에도 이 벤치마크는 정보를 찾는 과정에서의 끈기와 창의성을 측정한다는 점에서 유용하다고 평가된다. 글은 CodeForces 같은 프로그래밍 대회 비유를 사용해, 특정 경쟁 과제를 잘 푸는 능력이 모든 실제 과제에 보장되지는 않지만 중요한 핵심 능력을 보여줄 수 있다고 설명한다.

7. 데이터 다양성과 인간 검증 결과

문항 제작 과정에서는 트레이너가 개인적으로 관심 있는 주제에 대해 질문을 만들도록 장려됐다. OpenAI는 개인 관심사에서 출발한 데이터 포인트가 더 흥미로운 제작 경험과 더 높은 품질의 데이터를 만들 수 있다고 기대했다. 난도 확인을 위해 같은 트레이너 집단의 다른 사람이 문제를 풀어보는 검증 캠페인도 진행됐으며, 이때 정답은 제공되지 않았고 ChatGPT, Claude, Perplexity, Grok, Gemini 같은 AI assistant 사용도 금지됐다. 1,255개 문제 중 888개, 즉 70.8%는 해결 불가능으로 분류됐고, 해결된 367개 문제 중 317개가 기준 정답과 일치했다.

8. 모델별 성능과 브라우징만으로 부족하다는 결론

OpenAI는 BrowseComp에서 브라우징 없는 GPT-4o, GPT-4.5, OpenAI o1, 브라우징을 켠 GPT-4o, 그리고 지속적 웹 탐색을 위해 명시적으로 훈련된 Deep Research를 평가했다. GPT-4o는 0.6%, GPT-4o with browsing은 1.9%, GPT-4.5는 0.9% 정확도에 그쳐 벤치마크의 난도를 보여준다. 브라우징을 켜도 GPT-4o의 성능 향상은 제한적이었기 때문에, 웹 접근 자체만으로는 충분하지 않다는 점이 드러난다. 반면 브라우징이 없는 o1은 9.9%를 기록해 강한 추론 능력이 일부 답을 내부 지식이나 추론으로 드러낼 수 있음을 시사한다.

9. Deep Research와 추론 시 compute 확장

Deep Research는 51.5%의 정확도로 다른 모델을 크게 앞섰다. 원문은 이 모델이 BrowseComp 과제에 잘 대응하도록 가르치는 데이터로 훈련됐다는 주석을 함께 제시한다. Deep Research의 강점은 웹을 자율적으로 검색하고, 여러 출처의 정보를 평가·종합하며, 마주친 단서에 따라 검색 전략을 조정하는 능력으로 설명된다. 또한 BrowseComp에서는 추론 시 더 많은 compute를 사용할수록 성능이 부드럽게 향상되는 양상이 관찰됐고, 이는 많은 웹사이트를 반복적으로 탐색하고 정보를 결합해야 하는 문제 특성과 맞물린다.

10. 여러 시도 결합 전략과 시사점

OpenAI는 단일 시도에서 compute를 늘리는 것뿐 아니라, Deep Research가 한 문제를 여러 번 시도한 뒤 답을 결합하면 성능이 좋아지는지도 평가했다. 각 문제당 64개의 샘플 출력을 만들고, 다수결, confidence 점수로 가중한 투표, 가장 높은 confidence를 가진 출력을 고르는 best-of-N 세 방식을 비교했다. 세 방법은 단일 시도보다 15%에서 25% 성능을 높였고, 그중 best-of-N이 일관되게 가장 높은 정확도를 보였다. 이는 BrowseComp가 답을 찾기는 어렵지만 확인하기는 쉬운 구조이기 때문에, 모델이 자신이 맞았을 때를 꽤 자주 인식할 수 있음을 보여준다.

🧾 핵심 주장 / 시사점

BrowseComp의 핵심은 ‘웹에 접속할 수 있는가’가 아니라 ‘희소한 단서를 따라가며 검색 전략을 바꾸고, 찾은 정보를 검증할 수 있는가’를 평가한다는 점이다.
짧은 정답 중심 설계는 실제 사용자 과제를 완전히 대표하지는 못하지만, 채점 가능성과 재현성을 확보해 브라우징 에이전트의 특정 핵심 역량을 비교하기 쉽게 만든다.
모델 성능 결과는 브라우징 도구, 강한 추론, 지속적 탐색 전략, 그리고 여러 시도를 평가·선택하는 능력이 함께 작동할 때 어려운 웹 탐색 과제에서 성능이 크게 향상될 수 있음을 보여준다.

✅ 액션 아이템

원문에서 강조한 핵심 변화와 이해관계자를 기준으로 BrowseComp: a benchmark for browsing agents | OpenAI의 영향을 정리한다.
다음 의사결정이나 제품/정책 판단에 연결될 수 있는 근거를 원문 문장과 함께 기록한다.
기사에서 제시한 수치·사례·제약 조건을 분리해 과장 없이 검토한다.
후속 모니터링이 필요한 발표·제품·정책 변화가 있는지 출처 링크를 기준으로 추적한다.

❓ 열린 질문

OpenAI named a Leader in enterprise coding agents by Gartner]]" "303. 이 변화가 실제 사용자나 조직의 선택 기준을 어떻게 바꿀까?
Open and closed models are on different exponentials" "260. 이 근거가 다른 산업이나 지역에서도 동일하게 적용될 수 있을까?
As AI companies race to go public, who else is along for the ride TechCrunch" "247. 기사에서 아직 검증되지 않은 전제나 리스크는 무엇일까?
Meet the OpenAI Engineer Leading ChatGPT’s Biggest Transformation Yet" 📰 BrowseComp: a benchmark for browsing agents | OpenAI 💡 한 줄 요약 OpenAI의 BrowseComp는 웹 탐색 에이전트가 찾기 어렵지만 검증 가능한 정보를 얼마나 끈기 있고 전략적으로 찾아내는지 평가하기 위한 1,266문항 규모의 고난도 벤치마크다. 후속 발표나 데이터가 나오면 어떤 지표를 먼저 비교해야 할까?