Introducing Aardvark: OpenAI’s agentic security researcher
Quick Summary
OpenAI는 GPT 5 기반의 에이전트형 보안 연구자 Aardvark를 공개하며, 코드 변경을 지속적으로 분석해 취약점 발견, 악용 가능성 평가, 우선순위 지정, 수정 제안까지 수행하는 방어자 중심 보안 모델을 제시했다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 요약
OpenAI는 GPT-5 기반의 에이전트형 보안 연구자 Aardvark를 공개하며, 코드 변경을 지속적으로 분석해 취약점 발견, 악용 가능성 평가, 우선순위 지정, 수정 제안까지 수행하는 방어자 중심 보안 모델을 제시했다.
📌 핵심 요약
- OpenAI는 Aardvark를 GPT-5 기반의 에이전트형 보안 연구자로 발표했으며, 이후 2026년 3월 업데이트에서 Codex Security로 이름이 바뀌고 Codex에 직접 통합된 연구 프리뷰로 제공된다고 밝혔다.
- Aardvark는 저장소의 커밋과 코드 변경을 지속적으로 모니터링하면서 취약점을 찾고, 해당 취약점이 어떻게 악용될 수 있는지 분석하며, 심각도와 수정 방향을 제안한다.
- 이 시스템은 퍼징이나 소프트웨어 구성 분석 같은 전통적 프로그램 분석 기법에 의존하기보다, LLM 기반 추론과 도구 사용을 통해 사람이 보안 코드를 읽고 테스트하듯 코드 동작을 이해한다.
- OpenAI 내부 코드베이스와 외부 알파 파트너 환경에서 수개월간 운영되었고, 벤치마크에서는 알려진 취약점과 합성 취약점의 92%를 식별했다고 설명한다.
- OpenAI는 Aardvark를 오픈소스 프로젝트에도 적용해 여러 취약점을 책임 있게 공개했으며, 일부 비상업 오픈소스 저장소에는 무상 스캔을 제공할 계획이라고 밝혔다.
🧩 주요 포인트
- OpenAI는 Aardvark를 GPT-5 기반의 에이전트형 보안 연구자로 발표했으며, 이후 2026년 3월 업데이트에서 Codex Security로 이름이 바뀌고 Codex에 직접 통합된 연구 프리뷰로 제공된다고 밝혔다.
- Aardvark는 저장소의 커밋과 코드 변경을 지속적으로 모니터링하면서 취약점을 찾고, 해당 취약점이 어떻게 악용될 수 있는지 분석하며, 심각도와 수정 방향을 제안한다.
- 이 시스템은 퍼징이나 소프트웨어 구성 분석 같은 전통적 프로그램 분석 기법에 의존하기보다, LLM 기반 추론과 도구 사용을 통해 사람이 보안 코드를 읽고 테스트하듯 코드 동작을 이해한다.
- OpenAI 내부 코드베이스와 외부 알파 파트너 환경에서 수개월간 운영되었고, 벤치마크에서는 알려진 취약점과 합성 취약점의 92%를 식별했다고 설명한다.
- OpenAI는 Aardvark를 오픈소스 프로젝트에도 적용해 여러 취약점을 책임 있게 공개했으며, 일부 비상업 오픈소스 저장소에는 무상 스캔을 제공할 계획이라고 밝혔다.
🧠 상세 정리
1. Aardvark 공개와 Codex Security로의 전환
OpenAI는 Aardvark를 GPT-5로 구동되는 에이전트형 보안 연구자로 소개했다. 글의 업데이트에 따르면 Aardvark는 2026년 3월 기준 Codex Security라는 이름으로 바뀌었고, Codex 안에 직접 통합되어 연구 프리뷰 형태로 제공된다. ChatGPT Enterprise, Business, Edu 고객에게 Codex 웹을 통해 순차적으로 배포되며, 다음 한 달 동안 무료 사용이 가능하다고 안내한다. 원문의 핵심은 단순한 제품명 변경보다, 코드 작성·검토 흐름 안에 보안 분석 에이전트를 넣어 개발자와 보안팀이 취약점을 더 일찍 발견하고 고칠 수 있도록 하려는 방향에 있다.
2. 소프트웨어 보안 문제와 방어자 중심 접근
원문은 소프트웨어 보안을 기술 분야에서 가장 중요하면서도 어려운 전선 중 하나로 규정한다. 매년 기업과 오픈소스 코드베이스 전반에서 수만 개의 새로운 취약점이 발견되고, 방어자는 공격자보다 먼저 이를 찾아 패치해야 하는 부담을 안고 있다. OpenAI는 이 균형을 방어자에게 유리하게 기울이는 것을 목표로 한다고 설명한다. Aardvark는 이러한 문제의식 속에서, 사람이 모든 코드 변화와 잠재 취약점을 따라가기 어려운 환경에 지속적으로 동작하는 보안 연구 에이전트를 배치하려는 시도로 제시된다.
3. Aardvark의 작동 방식
Aardvark는 소스 코드 저장소를 지속적으로 분석해 취약점을 식별하고, 악용 가능성을 평가하며, 심각도를 우선순위화하고, 목표 지향적인 패치를 제안한다. 커밋과 코드베이스 변경을 모니터링하면서 어떤 취약점이 생겼는지, 그것이 어떤 방식으로 악용될 수 있는지, 어떤 수정이 필요한지까지 살핀다. 원문은 Aardvark가 퍼징이나 소프트웨어 구성 분석 같은 전통적인 프로그램 분석 기법에 의존하지 않는다고 명시한다. 대신 LLM 기반 추론과 도구 사용을 통해 코드 동작을 이해하고, 사람이 보안 연구를 하듯 코드를 읽고 분석하며 테스트를 작성·실행하고 도구를 활용한다.
4. 개발 워크플로와의 통합 및 발견 범위
Aardvark는 엔지니어와 함께 작동하도록 설계되었으며, GitHub, Codex, 기존 개발 워크플로와 통합된다고 설명된다. 목표는 개발 속도를 늦추지 않으면서도 명확하고 실행 가능한 보안 인사이트를 제공하는 것이다. 원문은 Aardvark가 보안을 위해 만들어졌지만, 테스트 과정에서 보안 취약점 외에도 논리적 결함, 불완전한 수정, 개인정보 관련 문제 같은 버그를 찾아낼 수 있었다고 밝힌다. 이는 시스템의 역할이 단순한 취약점 스캐너에 머무르지 않고, 코드 변화 속에서 실제 동작과 의도 사이의 어긋남을 파악하는 방향으로 확장될 수 있음을 보여준다.
5. 내부·파트너 환경에서의 실제 성과
Aardvark는 발표 시점까지 수개월 동안 OpenAI 내부 코드베이스와 외부 알파 파트너의 코드베이스에서 계속 운영되어 왔다. OpenAI 내부에서는 의미 있는 취약점을 드러내며 방어 태세에 기여했다고 설명한다. 파트너들은 특히 복잡한 조건에서만 발생하는 문제를 Aardvark가 찾아낸 점을 높게 평가한 것으로 소개된다. 벤치마크 테스트에서는 ‘골든’ 저장소를 대상으로 알려진 취약점과 합성으로 주입된 취약점의 92%를 식별했다고 하며, OpenAI는 이를 높은 재현율과 실제 환경에서의 효과성을 보여주는 지표로 제시한다.
6. 오픈소스 적용과 책임 있는 공개
OpenAI는 Aardvark를 오픈소스 프로젝트에도 적용했으며, 그 결과 여러 취약점을 발견해 책임 있게 공개했다고 밝혔다. 이 중 10건은 CVE 식별자를 받았다고 원문은 설명한다. OpenAI는 오랜 기간 축적된 공개 연구와 책임 있는 공개 관행의 수혜자로서, 더 안전한 디지털 생태계를 만들기 위해 도구와 발견 내용을 되돌려주겠다는 입장을 밝힌다. 또한 일부 비상업 오픈소스 저장소에는 무상 스캔을 제공해 오픈소스 소프트웨어 생태계와 공급망 보안에 기여할 계획이라고 말한다.
7. 중요성, 비공개 베타, 향후 검증
원문은 소프트웨어가 모든 산업의 기반이 되었기 때문에 취약점이 기업, 인프라, 사회 전체에 대한 시스템적 위험이 되었다고 강조한다. 2024년에만 4만 건이 넘는 CVE가 보고되었고, OpenAI의 테스트에서는 커밋의 약 1.2%가 버그를 도입하는 것으로 나타났다고 설명한다. Aardvark는 코드가 변화하는 동안 지속적인 보호를 제공하고, 실제 악용 가능성을 검증하며, 명확한 수정안을 제시하는 방어자 우선 모델로 자리매김한다. OpenAI는 현재 선택된 파트너를 대상으로 비공개 베타 참여를 초대하며, 다양한 환경에서 탐지 정확도, 검증 워크플로, 보고 경험을 함께 다듬겠다고 밝혔다.
🧾 핵심 주장 / 시사점
- Aardvark의 핵심 차별점은 전통적 정적·동적 분석 기법의 대체가 아니라, 코드 이해와 도구 사용을 결합해 사람 보안 연구자의 사고 흐름을 자동화하려는 데 있다.
- OpenAI가 성능 지표로 92% 식별률을 제시한 점은 높은 탐지 능력을 강조하지만, 원문은 동시에 비공개 베타를 통해 다양한 환경에서 정확도와 보고 경험을 검증하겠다고 밝혀 아직 현장 검증 단계임을 드러낸다.
- 오픈소스 취약점 공개와 무상 스캔 계획은 에이전트형 보안 도구가 더 많은 버그를 발견하게 될 때, 개발자를 압박하지 않는 협력적 공개 정책이 함께 필요하다는 문제의식을 보여준다.
✅ 액션 아이템
- Aardvark처럼 커밋 단위로 취약점 탐지, 악용 가능성 분석, 심각도 분류, 수정 제안까지 이어지는 보안 리뷰 흐름을 내부 코드 검토 절차와 비교한다.
- 퍼징·구성 분석 중심 보안 점검과 LLM 기반 코드 이해 방식이 각각 잘 맞는 취약점 유형을 나눠 보고, 병행 적용이 필요한 영역을 정리한다.
- 오픈소스 저장소 무상 스캔 계획이 공개될 경우, 비상업 프로젝트 운영자가 어떤 저장소를 우선 신청할지 기준을 마련한다.
❓ 열린 질문
- Aardvark가 제안하는 심각도와 수정 방향은 실제 개발자의 보안 패치 우선순위 결정에 어느 정도까지 신뢰할 수 있을까?
- 알려진 취약점과 합성 취약점의 92% 식별 성과가 실제 운영 저장소의 신규 취약점 탐지율로도 이어질까?
- Codex에 통합된 Codex Security 연구 프리뷰가 기존 코드 작성·리뷰 워크플로 안에서 보안 책임 분담을 어떻게 바꿀까?