Codex Security, 취약점 탐지율 18%의 진짜 의미

Published on

in

Codex Security, 취약점 탐지율 18%의 진짜 의미

2026.03.10 공식 출시 기준 / Research Preview

Codex Security, 취약점 탐지율 18%의 진짜 의미

숫자만 보면 형편없어 보입니다. 그런데 OpenAI 공식 문서를 직접 읽어보면 이야기가 달라집니다.

📊 120만 커밋 스캔
🔴 792개 치명적 취약점 발견
⚡ 가양성(False Positive) 50% 이상 감소
🆓 1개월 무료 이용 (Pro/Enterprise)

Codex Security가 뭔지 30초 요약

Codex Security는 OpenAI가 2026년 3월 10일(한국 기준) 리서치 프리뷰로 공개한 AI 기반 애플리케이션 보안 에이전트입니다. 쉽게 말해 코드베이스를 읽고 취약점을 찾아서 수정 방법까지 제시해주는 도구인데, 기존 보안 스캐너(SAST)와는 작동 방식이 근본적으로 다릅니다. (출처: OpenAI 공식 블로그, 2026.03.10)

원래 ‘Aardvark’라는 이름으로 2025년 10월부터 비공개 베타 테스트를 진행해왔고, 약 5개월간의 내부 검증을 거쳐 정식 공개됐습니다. 단순히 이름이 바뀐 게 아니라, 베타 기간 동안 가양성(False Positive) 비율을 50% 이상 낮추는 데 성공했다는 점이 핵심입니다. (출처: OpenAI Aardvark 공식 발표, 2025.10.30)

현재 ChatGPT Pro, Enterprise, Business, Edu 플랜 사용자에게 1개월 무료로 제공되고 있습니다. Codex 웹 인터페이스에서 바로 접근할 수 있습니다.

▲ 목차로 돌아가기

SAST를 일부러 안 쓰는 이유

대부분의 보안 도구는 SAST(정적 애플리케이션 보안 테스트)를 기반으로 합니다. 코드에서 위험한 입력이 시작되는 지점(Source)부터 실제로 위험한 연산이 일어나는 지점(Sink)까지 데이터 흐름을 추적하는 방식이죠. 잘 만들어진 도구인데 OpenAI는 Codex Security를 만들면서 이 SAST 결과를 출발점으로 쓰지 않겠다는 결정을 내렸습니다.

💡 공식 발표문과 실제 보안 연구 흐름을 나란히 놓고 보니 이런 차이가 보였습니다.

OpenAI가 2026년 3월 16일 공식 문서에서 밝힌 이유는 세 가지입니다. 첫째, SAST 결과물을 받아서 시작하면 해당 도구가 이미 봤던 범위에서만 조사가 이루어집니다. 에이전트가 새로운 각도로 취약점을 발견할 가능성이 줄어드는 것이죠. 둘째, SAST 결과물 안에는 “이 코드는 안전하다”거나 “이 함수는 위험하다”는 식의 암묵적 판단이 이미 담겨 있는데, 이 판단이 틀렸을 때 에이전트도 같은 실수를 반복하게 됩니다. 셋째, 나중에 Codex Security가 뭘 스스로 발견했는지, 뭘 기존 도구에서 물려받은 건지 구분이 불가능해져서 시스템 개선이 어려워집니다. (출처: OpenAI, “Why Codex Security Doesn’t Include a SAST Report”, 2026.03.16)

한 문장으로 요약하면 이렇습니다. SAST는 “데이터가 어디서 왔고 어디로 갔는가”를 추적합니다. Codex Security는 “방어 코드가 실제로 제 역할을 하는가”를 검증합니다. 질문 자체가 다릅니다.

▲ 목차로 돌아가기

120만 커밋 스캔, 숫자 뒤의 맥락

OpenAI는 베타 기간 30일 동안 외부 오픈소스 저장소에서 120만 개 이상의 커밋을 스캔했고, 792개의 치명적(Critical) 취약점과 1만 561개의 높은 심각도(High-severity) 취약점을 발견했다고 공식 발표했습니다. (출처: OpenAI 공식 블로그, 2026.03.10)

이 숫자만 보면 굉장한 것처럼 보입니다. 그런데 비율을 계산해보면 이야기가 달라집니다.

💡 OpenAI가 공식 발표에서 언급하지 않은 수치를 직접 역산해봤습니다.

120만 커밋 중 치명적 취약점은 792개입니다. 비율로 계산하면 약 0.066%입니다. 높은 심각도까지 합산해도 1만 1,353건으로 전체의 0.95%에 그칩니다. (계산식: 11,353 ÷ 1,200,000 × 100 ≒ 0.95%) Aardvark 시절 OpenAI 공식 문서에는 “0.1% 미만”이라고 직접 표현되어 있습니다. 이 말은 99% 이상의 코드에서는 경보가 울리지 않는다는 뜻이기도 하지만, 동시에 Codex Security가 “일단 다 경보 내고 보는” 도구가 아니라는 뜻이기도 합니다. 대부분의 기존 SAST 도구가 대규모 프로젝트에서 수천 건의 가양성을 쏟아내는 것과 반대 방향입니다.

실제로 발견된 취약점 사례 중에는 GnuPG의 스택 버퍼 오버플로(CVE-2026-24881), GnuTLS의 힙 버퍼 오버리드(CVE-2025-32989), GOGS의 2FA 우회(CVE-2025-64175) 등 실제로 CVE 번호가 발급된 검증된 취약점들이 포함되어 있습니다. 허위 경보가 아닌 실제 문제입니다.

▲ 목차로 돌아가기

실제 탐지율 18%가 말해주는 것

2025년 9월 Semgrep 연구팀이 실제 Python 웹 애플리케이션 11개를 대상으로 AI 보안 에이전트를 벤치마크한 결과가 있습니다. Codex(v0.2.0, o4-mini 모델 기준)의 전체 취약점 탐지 정확률(True Positive Rate)은 18%였습니다. Claude Code(Sonnet 4 기준)는 14%였습니다. (출처: Semgrep 연구팀 벤치마크, 2025년 9월)

이 숫자를 보고 “형편없는 도구 아니냐”고 반응하는 게 자연스럽습니다. 그런데 맥락이 있습니다.

취약점 유형 Codex 탐지율 Claude Code 탐지율
인증 우회 (Auth Bypass) 13% (5/37) 10% (6/58)
IDOR (권한 없는 직접 참조) 0% (0/5) 22% (13/59)
경로 탐색 (Path Traversal) 47% (8/17) 13% (5/36)
SQL 인젝션 0% (0/5) 5% (2/38)
SSRF 34% (8/23) 12% (8/65)
XSS (크로스사이트 스크립팅) 0% (0/28) 16% (12/74)

(출처: Semgrep 연구팀 벤치마크, 2025년 9월 / o4-mini 기준)

Codex는 Path Traversal에서 47%, SSRF에서 34%로 Claude Code를 큰 폭으로 앞서는 반면, XSS와 SQL 인젝션에서는 0%입니다. Semgrep은 그 이유로 “프로시저 간 데이터 흐름 추적”의 한계를 꼽았습니다. SAST 방식의 데이터 흐름 추적이 딱 필요한 취약점 유형에서 AI 에이전트도 비슷하게 막힌다는 뜻입니다. 종합 18%가 낮아 보이는 게 아니라, 취약점 유형별로 도구의 강점이 극단적으로 갈린다는 게 진짜 이야기입니다.

▲ 목차로 돌아가기

WebSocket 인증 누락 — AI 에이전트 공통 맹점

알려지지 않은 패턴이 실제로 재현됩니다

2026년 3월 DryRun Security가 발표한 연구는 흥미로운 패턴을 보여줍니다. Codex(GPT-5.2 기반), Claude Code(Sonnet 4.6 기반), Gemini(2.5 Pro 기반) 세 가지 AI 에이전트가 공통으로 저지르는 실수가 있었습니다. 바로 WebSocket 인증 누락입니다. (출처: DryRun Security 연구 보고서, 2026년 3월)

💡 공식 발표와 독립 연구를 교차해서 읽으니 이런 패턴이 보였습니다.

세 에이전트 모두 REST API 인증 미들웨어는 정확하게 구현했습니다. 문제는 WebSocket 업그레이드 핸들러였습니다. REST 쪽에 적용한 인증 정책을 WebSocket 연결에는 적용하지 않았습니다. 테스트된 모든 최종 코드베이스에서 이 패턴이 반복됐습니다. Codex, Claude Code, Gemini 모두 예외 없이요. 이건 특정 AI가 나빠서 생기는 문제가 아닙니다. “인증 정책을 다른 연결 유형에도 확장해야 한다”는 논리적 판단이 현재 AI 에이전트 구조에서는 자동으로 이루어지지 않는다는 얘기입니다.

같은 연구에서 30개 풀 리퀘스트 중 26개(87%)에 최소 1개 이상의 취약점이 포함되어 있었습니다. AI가 작성한 코드를 보안 검토 없이 바로 배포하는 것이 왜 위험한지를 보여주는 수치입니다.

▲ 목차로 돌아가기

Claude Code Security와 뭐가 다른가

Anthropic의 Claude Code Security는 2026년 2월, OpenAI의 Codex Security는 3월 10일에 공개됐습니다. 두 서비스가 2주 차이로 나온 점 자체가 이 분야에서 경쟁이 얼마나 빠르게 진행되는지를 보여줍니다.

항목 Codex Security Claude Code Security
공개 시점 2026년 3월 10일 2026년 2월
접근 방식 저장소 아키텍처 분석 → 위협 모델 → 취약점 가설 → 샌드박스 검증 코드베이스 스캔 → 취약점 탐지 → 패치 제안
전체 탐지 정확률 약 18% (Semgrep, 2025.09) 약 14% (Semgrep, 2025.09)
강점 유형 Path Traversal, SSRF IDOR, XSS
현재 이용 가격 1개월 무료 (Pro 이상) 공식 요금 미공개
SAST 포함 여부 의도적으로 미포함 공식 문서 미언급

(출처: Semgrep 연구, 2025.09 / OpenAI 공식 블로그, 2026.03.10 / The Hacker News, 2026.03.07)

솔직히 말하면 두 도구 모두 아직 리서치 프리뷰 단계입니다. 어느 쪽이 “더 낫다”고 단정하기보다는 탐지하려는 취약점 유형에 따라 보완적으로 쓰는 게 현실적입니다.

▲ 목차로 돌아가기

지금 쓸 수 있는 조건과 실사용 한계

이용 조건

ChatGPT Pro($200/월), Enterprise, Business, Edu 플랜 사용자는 Codex 웹(openai.com/codex)에서 바로 접근할 수 있습니다. 공개 오픈소스 프로젝트는 별도 신청 폼을 통해 무료로 이용할 수 있습니다. API 연동을 원한다면 developers.openai.com/codex/security를 참고하면 됩니다. vLLM 프로젝트는 이미 Codex Security를 적용해 사용하고 있습니다.

알고 써야 할 한계

첫째, 샌드박스 검증 방식은 일반 SAST보다 컴퓨팅 비용이 높습니다. 대규모 저장소를 전체 스캔하면 시간과 비용 모두 더 들 수 있습니다. 둘째, 모든 언어와 프레임워크를 완벽하게 지원하지 않습니다. 현재 리서치 프리뷰 단계기 때문에 커버리지에 공백이 있고, 이 부분은 OpenAI가 공식적으로 인정하고 있습니다. 셋째, 동일한 코드를 여러 번 스캔하면 결과가 다를 수 있습니다. Semgrep 벤치마크에서 같은 코드를 세 번 돌렸을 때 3개, 6개, 11개로 결과가 달라진 사례가 확인됐습니다. 취약점 관리 시스템에 바로 연동하는 방식은 신중하게 접근해야 하는 이유입니다.

OpenAI는 Codex Security가 기존 SAST를 대체하는 게 아니라 보완하는 도구라고 공식 입장을 밝히고 있습니다. SAST는 빠르고 일관된 패턴 탐지에, Codex Security는 복잡한 로직 수준의 취약점 검증에 쓰는 방향이 현실적입니다.

▲ 목차로 돌아가기

Q&A

▶ Q1. Codex Security는 무료로 쓸 수 있나요?
ChatGPT Pro, Enterprise, Business, Edu 플랜 사용자에게 1개월 무료로 제공됩니다. 오픈소스 프로젝트는 별도 신청 폼을 통해 무료 이용이 가능합니다. 1개월 이후 요금 정책은 2026년 3월 25일 기준 공식 발표 전입니다.
▶ Q2. SAST 도구를 이미 쓰고 있다면 Codex Security가 필요한가요?
OpenAI 공식 입장은 “대체가 아닌 보완”입니다. SAST는 알려진 패턴을 빠르고 일관되게 잡아내고, Codex Security는 로직 수준의 복잡한 취약점을 검증합니다. Path Traversal이나 SSRF처럼 SAST가 놓치기 쉬운 유형을 추가로 커버하는 데 실용적입니다.
▶ Q3. 탐지율 18%면 실용적이지 않은 거 아닌가요?
전체 평균이 낮아 보이지만 Path Traversal 47%, SSRF 34%처럼 특정 유형에서는 기존 AI 에이전트 대비 높은 정확도를 보입니다. 또 Codex Security가 경보를 올린 항목은 샌드박스에서 실제 재현된 취약점이기 때문에, 가양성 노이즈가 많은 기존 SAST 결과물보다 실제 대응 우선순위를 잡는 데 유리할 수 있습니다.
▶ Q4. Aardvark와 Codex Security는 같은 도구인가요?
Aardvark는 2025년 10월에 공개된 비공개 베타 버전의 이름입니다. Codex Security는 그 정식 공개 버전입니다. 이름이 바뀐 것 외에도, 베타 기간 동안 가양성 비율이 50% 이상 감소하는 등 실질적인 성능 개선이 이루어졌습니다. (출처: OpenAI 공식 블로그, 2026.03.10)
▶ Q5. XSS나 SQL 인젝션은 탐지율이 0%인데, 써도 의미가 있나요?
XSS와 SQL 인젝션은 데이터 흐름(Source → Sink) 추적 기반으로 탐지하는 유형인데, 이 방식은 SAST가 원래 잘하는 영역입니다. Codex Security의 구조적 한계가 여기서 드러납니다. 이 두 유형은 기존 SAST 도구나 Claude Code를 함께 쓰는 방식이 현실적입니다.

▲ 목차로 돌아가기

마치며

Codex Security를 공식 문서까지 직접 파고들어 보니, 이 도구가 말하는 핵심은 하나입니다. “보안 코드가 존재하는지”보다 “그 보안 코드가 실제로 작동하는지”를 묻는 도구라는 것입니다. 그 질문이 맞는 방향이라고 봅니다.

다만 솔직히 말하면 아직은 리서치 프리뷰입니다. 탐지율 18%는 “형편없다”가 아니라 “아직 진화 중이다”로 읽는 게 맞고, WebSocket 인증 누락처럼 AI 에이전트 전체가 공통으로 가진 맹점은 Codex Security 혼자 해결해주지 않습니다. 1개월 무료 기간 동안 Path Traversal이나 SSRF가 실제로 걱정되는 프로젝트에 시험적으로 돌려보는 접근이 현실적입니다.

한 가지 확실한 건, 이 분야가 2026년 들어 급속도로 움직이고 있다는 겁니다. Anthropic이 먼저 출시하고 OpenAI가 2주 뒤에 따라온 속도를 보면, 앞으로 몇 달 안에 또 다른 변화가 올 가능성이 높습니다.

📎 본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Codex Security 리서치 프리뷰 공개 (openai.com)
  2. OpenAI 공식 문서 — Why Codex Security Doesn’t Include a SAST Report (openai.com)
  3. OpenAI 공식 블로그 — Aardvark 소개 (2025.10.30) (openai.com)
  4. The Hacker News — OpenAI Codex Security Scanned 1.2M Commits (2026.03.07) (thehackernews.com)
  5. AdwaitX — Codex Security No SAST Report 분석 (2026.03) (adwaitx.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 기능은 2026년 3월 25일 기준이며, OpenAI Codex Security는 현재 리서치 프리뷰 단계로 정식 출시 이후 내용이 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기