Why Codex Security Doesn’t Include a SAST Report

🖼️ 인포그래픽

Why Codex Security Doesn’t Include a SAST Report 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Codex Security는 SAST 보고서를 출발점으로 삼기보다 저장소의 구조, 신뢰 경계, 의도된 동작을 먼저 이해하고 실제로 검증해 사람에게 제시할 문제의 신뢰도를 높이도록 설계되었다.

📌 핵심 요약

글은 SAST가 오랫동안 보안팀의 코드 리뷰를 확장하는 효과적인 방식이었음을 인정하면서도, Codex Security가 정적 분석 보고서를 가져와 분류하는 방식으로 시작하지 않은 이유를 설명한다.
핵심 문제는 많은 취약점이 단순한 데이터 흐름 문제가 아니라, 코드에 존재하는 검증·정화·권한 확인이 실제로 시스템이 기대하는 보안 속성을 보장하는지의 문제라는 점이다.
예시로 URL 리다이렉트 처리에서 allowlist 정규식 검증이 URL 디코딩 전에 수행될 경우, 디코딩과 정규화 이후에도 같은 제약이 유지되는지 따져야 하며, 이는 단순 source-to-sink 추적만으로는 충분하지 않다.
Codex Security는 체크가 존재한다는 사실에서 멈추지 않고, 그 체크가 보장하려는 불변식이 실제로 유지되는지 반례를 찾아 검증하며, 더 강한 근거를 갖춘 이슈만 사람에게 제시하려 한다.
저자는 SAST 도구가 여전히 표준 준수, 알려진 패턴 탐지, 명확한 source-to-sink 문제 포착에 중요하다고 보지만, 행동과 의도를 추론하고 검증하는 에이전트는 정적 findings 목록에 고정되어 시작해서는 안 된다고 주장한다.

🧩 주요 포인트

글은 SAST가 오랫동안 보안팀의 코드 리뷰를 확장하는 효과적인 방식이었음을 인정하면서도, Codex Security가 정적 분석 보고서를 가져와 분류하는 방식으로 시작하지 않은 이유를 설명한다.
핵심 문제는 많은 취약점이 단순한 데이터 흐름 문제가 아니라, 코드에 존재하는 검증·정화·권한 확인이 실제로 시스템이 기대하는 보안 속성을 보장하는지의 문제라는 점이다.
예시로 URL 리다이렉트 처리에서 allowlist 정규식 검증이 URL 디코딩 전에 수행될 경우, 디코딩과 정규화 이후에도 같은 제약이 유지되는지 따져야 하며, 이는 단순 source-to-sink 추적만으로는 충분하지 않다.
Codex Security는 체크가 존재한다는 사실에서 멈추지 않고, 그 체크가 보장하려는 불변식이 실제로 유지되는지 반례를 찾아 검증하며, 더 강한 근거를 갖춘 이슈만 사람에게 제시하려 한다.
저자는 SAST 도구가 여전히 표준 준수, 알려진 패턴 탐지, 명확한 source-to-sink 문제 포착에 중요하다고 보지만, 행동과 의도를 추론하고 검증하는 에이전트는 정적 findings 목록에 고정되어 시작해서는 안 된다고 주장한다.

🧠 상세 정리

1. SAST를 인정하되 출발점으로 삼지 않은 설계 선택

글은 SAST가 수십 년 동안 보안팀이 코드 리뷰를 확장하는 데 유용한 도구였다는 점에서 출발한다. 그러나 Codex Security는 정적 분석 보고서를 가져와 에이전트가 triage하도록 만드는 방식을 의도적으로 선택하지 않았다. 대신 저장소 자체, 즉 아키텍처와 신뢰 경계, 의도된 동작을 먼저 이해하고 발견한 내용을 검증한 뒤 사람의 시간을 요구하도록 설계되었다. 저자는 가장 어려운 취약점이 단순히 데이터가 어디에서 어디로 흐르는지의 문제가 아니라, 코드가 수행하는 보안 체크가 실제로 시스템이 의존하는 속성을 보장하는지의 문제라고 설명한다.

2. SAST의 강점과 한계: 데이터 흐름 중심 모델

SAST는 보통 신뢰할 수 없는 입력의 출처를 찾고, 그 데이터가 프로그램을 지나 민감한 sink에 도달하는지 추적하며, 정화 없이 도달하는 경우를 표시하는 방식으로 설명된다. 이 모델은 명확하고 우아하며 실제 버그를 많이 포착할 수 있다. 다만 현실의 코드베이스에는 간접 호출, 동적 디스패치, 콜백, 리플렉션, 프레임워크 중심 제어 흐름이 많기 때문에 정적 분석은 규모를 감당하기 위해 근사치를 사용할 수밖에 없다. 글은 이러한 근사가 SAST의 결함이라기보다 실행하지 않고 코드를 추론해야 하는 현실이라고 보지만, 더 깊은 문제는 source-to-sink 추적이 성공한 이후에도 취약점 여부를 결정하는 질문이 남는다는 데 있다고 말한다.

3. 체크의 존재와 시스템의 안전성은 다르다

저자는 정적 분석이 여러 함수와 계층을 지나 입력을 정확히 추적하더라도, 취약점이 존재하는지를 결정하려면 방어 코드가 실제로 충분한지 판단해야 한다고 강조한다. 예를 들어 코드가 신뢰할 수 없는 콘텐츠를 렌더링하기 전에 sanitize_html() 같은 함수를 호출한다면, 정적 분석기는 정화 함수가 실행되었다는 사실은 볼 수 있다. 하지만 그 정화가 특정 렌더링 문맥, 템플릿 엔진, 인코딩 동작, 이후 변환 과정에 충분한지는 별개의 문제다. 그래서 핵심은 데이터가 sink에 도달했는지가 아니라, 코드의 검증과 정화가 시스템이 가정하는 방식으로 값을 실제로 제한하는지에 있다.

4. 검증 후 디코딩 예시가 보여주는 변환 체인의 위험

글은 웹 애플리케이션이 JSON payload에서 redirect_url을 추출하고, allowlist 정규식으로 검증한 뒤, URL 디코딩을 수행하고, 결과를 redirect handler에 넘기는 패턴을 예로 든다. 고전적인 source-to-sink 보고서는 이 흐름을 신뢰할 수 없는 입력, 정규식 검사, URL 디코딩, 리다이렉트로 설명할 수 있다. 그러나 실제 질문은 체크가 존재하는지가 아니라, 그 체크가 이후 변환을 거친 값에도 여전히 제약으로 작동하는지다. 정규식이 디코딩 전에 실행된다면, 디코딩된 URL을 리다이렉트 핸들러가 해석하는 방식까지 고려해야 하며, 정규식 허용 범위와 디코딩, 정규화, URL 파싱, scheme과 authority 해석까지 전체 변환 체인을 함께 추론해야 한다.

5. 행동에서 시작하고 보장을 반증하려는 Codex Security의 접근

Codex Security의 목표는 더 강한 증거를 가진 이슈를 표면화해 triage 부담을 줄이는 것이다. 이를 위해 제품은 threat model을 포함한 저장소별 문맥을 사용하고, 높은 신호의 이슈를 사람에게 보여주기 전에 격리된 환경에서 검증한다. 검증이나 정화처럼 보이는 경계를 만났을 때도 그것을 단순한 체크박스로 취급하지 않고, 코드가 무엇을 보장하려 하는지 이해한 뒤 그 보장을 깨뜨릴 수 있는지 시도한다. 저자가 말하는 전환점은 “체크가 존재한다”에서 멈추는 것이 아니라, “불변식이 유지되는지 또는 깨지는지, 그리고 그 증거가 무엇인지”로 나아가는 데 있다.

6. SAST 보고서를 seed로 쓰지 않는 세 가지 이유와 SAST의 역할

저자는 SAST 보고서로 시작한 뒤 에이전트가 더 깊이 추론하면 되지 않느냐는 반응을 예상하고, 세 가지 실패 모드를 제시한다. 첫째, findings 목록은 이미 도구가 본 영역의 지도이므로 에이전트가 같은 영역과 추상화에 과도하게 묶여 다른 유형의 문제를 놓칠 수 있다. 둘째, SAST findings에는 정화, 검증, 신뢰 경계에 대한 암묵적 판단이 들어 있으며, 이것이 틀리거나 불완전하면 에이전트가 조사하기보다 확인하거나 기각하는 방향으로 기울 수 있다. 셋째, SAST 출력에서 시작하면 에이전트가 스스로 발견한 것과 다른 도구에서 물려받은 것을 구분하기 어려워져 추론 시스템의 능력을 정확히 평가하기 힘들다. 다만 글은 SAST가 보안 코딩 표준 적용, 명확한 source-to-sink 문제 탐지, 알려진 패턴의 대규모 탐지에 여전히 중요하다고 분명히 인정한다.

🧾 핵심 주장 / 시사점

이 글의 핵심은 보안 분석의 초점을 “데이터가 위험한 위치에 도달했는가”에서 “코드가 기대하는 보안 불변식이 실제 변환과 해석 이후에도 유지되는가”로 옮기는 데 있다.
SAST findings를 출발점으로 삼지 않는 이유는 SAST를 부정해서가 아니라, 에이전트의 탐색 범위와 판단 기준이 기존 도구의 가정에 묶이는 것을 피하려는 설계 선택에 가깝다.
검증, 정화, 권한 확인처럼 겉으로는 방어가 존재하는 코드일수록 실제 취약점은 체크의 존재 여부보다 체크가 적용되는 순서, 변환 체인, 해석 맥락의 불일치에서 드러날 수 있다.